belohnungslernen II

belohnungslernen II
Susanne Leiberg & Tania Singer
www.socialbehavior.uzh.ch
1
gliederung
• wiederholung
• aspekte von belohnung
• belohnung in der expected utility theory
• belohnung im gehirn
• belohnungssystem - strukturen & transmitter
• rolle des dopamins
• zellableitungen beim affen
• funktionelle bildgebung beim menschen
2
wiederholung
• 2 arten einfacher lernmodelle - klassisches & operantes konditionieren
• klassische konditionierung - wiederholte kopplung eines unkonditionierten
stimulus (us) & eines konditionierten stimulus (cs) erreicht, dass die vorher nur
vom us auslösbare unkonditionierte reaktion (ur) auch durch alleiniges
darbieten des cs ausgelöst werden kann (cr)
• operante konditionierung - erlernen assoziation reiz-verhalten-konsequenz,
konsequenz (belohnung/bestrafung) bestimmt spätere auftretenswahrscheinlichkeit des verhaltens
• rescorla-wagner-modell - mathematisches modell der klassischen
konditionierung → neuigkeit des cs bestimmt, ob er verhalten beeinflusst
• prediction error → wenn erwartete und tatsächliche verhaltenskonsequenz
nicht übereinstimmen → lernen!
3
was sie nach dieser sitzung wissen sollten
• aspekte und nutzen von belohnung
• bestandteile des belohnungssystems
• rolle des dopamins im belohnungslernen
• neuronales korrelat des reward prediction errors
• rolle der verschiedenen bestandteile des belohnungssystems in der
verarbeitung von belohnung
4
belohnung
• belohnung ist wichtig für das überleben
• wir nutzen sie, um das optimale verhalten auszuwählen (jenes, welches
belohnung maximiert)
• belohnungen sind dinge, die die wahrscheinlichkeit und intensität einer
handlung erhöhen (= lernen)
• belohnungen führen zu annährungs- und konsummatorischen verhalten &
sind outcomes von entscheidungen
• belohnungen führen meist zu freude und positiven gefühlen
5
aspekte von belohnung
ausdrückliches
verlangen
zielgerichtete
pläne
positive verhaltensverstärkung
motivation
lernen
erwartung einer
belohnung
‘wanting’
verknüpfung
ursache-wirkung
salienz
bewusstes
lustgefühl
gefühle
unbewusste
affekte
‘liking’
abler (2005), nach berridge & robinson (2003)
6
belohnung in der expected utility theory
• wie beeinflussen unterschiedliche belohnungen unser wahlverhalten?
• für welches verhalten/produkt wir uns entscheiden hängt zum einen vom
expected value ab
n = anzahl belohnungen, p = auftretenswahrscheinlichkeit,
x = belohnungswert
• belohnungen mit höherem expected value werden nicht immer bevorzugt
• andere faktoren bestimmen mit welche outcomes gewählt werden
• outcomes werden daher gemessen nach dem nutzen (utility) die sie für den
Entscheider haben
n = anzahl belohnungen, p = auftretenswahrscheinlichkeit,
x = belohnungswert, u = nutzen
7
belohnung in der expected utility theory
• unterschiedliche menschen haben unterschiedliche nutzenfunktionen
• ein wichtiger faktor der die nutzenfunktion beeinflusst, ist die unsicherheit mit
der belohnung eintritt → für risikoaverse menschen reduziert sich nutzen einer
belohnung mit unsicherheit (eine belohnung ist weniger wert für mich, wenn
ich befürchte sie nicht zu bekommen) → für risikofreudige menschen erhöht
sich der nutzen einer belohnung durch unsicherheit (ich mag die unsicherheit
und bevorzuge deshalb riskante optionen statt sichere)
EV = expected value
EU = expected utility
CE = certainty equivalent
(point of choice indifference)
risikoavers
EU kleiner u(EV)
risikofreudig
EU grösser u(EV)
8
belohnung in der expected utility theory
• anderer faktor der nutzen einer belohnung bestimmt ist die verzögerung mit
der belohnung nach prädizierendem stimulus gegeben wird → menschen
bevorzugen meist sofortige statt spätere belohnung → ABER:
• dazu mehr in der nächsten vorlesung
• mikroökonomische nutzentheorie hat dazu beigetragen basale
belohnungsparameter zu definieren (stärke, expected value, expected utility)
und wodurch sie beeinflusst werden (uncertainty) → korrelate im gehirn?
9
belohnung im gehirn - die anfänge
olds & milner (1954) implantierten elektroden in die gehirne von raten, unter
anderem im nucleus accumbens. wenn die raten einen hebel drückten, wurde das
gehirn stimuliert. die raten drückten den hebel so oft, dass sie sogar die
nahrungsaufnahme vergassen und oft an erschöpfung starben.
→ entdeckung belohnungszentrum
10
belohnung im gehirn - die anfänge
einige psychopharmaka blockieren dopamin rezeptoren und verringern
damit symptome wie halluzinationen oder verfolgungswahn
zusätzlich führen diese medikamente zu einer affektverflachung (bei
labortieren auch zur lernblockierung)
es wurde geschlossen, dass dopamin die belohnenden, motivationalen
aspekte von stimuli wie essen, wasser, sex aber auch drogen mediiert
11
belohnungssystem - strukturen
ventrales striatum mit nucleus accumbens
prefrontal
cortex
nucleus caudatus
putamen
substantia nigra
ventrales tegmentum
orbitofrontal
cortex
amygdala
12
belohnungssystem - transmitter
• dopamin der wichtigste neurotransmitter im belohnungssystem
• dopaminerge neurone in der substantia nigra (pars compacta) und dem
ventralen tegmentum projizieren zum striatum (nucleus caudatus, putamen,
ventrales striatum mit dem nucleus accumbens), orbitofrontalen cortex und
zur amygdala
13
rolle des dopamins im belohnungslernen
zunächst wurde die theorie aufgestellt, dass dopamin die stärke einer
belohnung kodiert, d.h. dass umso mehr dopamin ausgeschüttet wird, umso
grösser die belohnung ist.
→ dopamin wandelt erfahrungen in allgemeine belohnungsskala um
→hypothese wurde verworfen, als man herausfand, dass dopaminausschüttung von erwartungen abhängt
reward prediction error theorie des dopamins
feuerungsrate von dopaminneuronen im ventralen tegmentum bildet den
unterschied zwischen erhaltener und vorhergesagter belohnung ab
14
reward prediction error
ausführung
verhaltensantwort
nein
fehler
aufrechterhaltung
momentaner konnektivität
ja
aufrechterhaltung
momentaner konnektivität
generierung
fehlersignal
lernen hängt von der vorhersagbarkeit der belohnung ab → muss überraschend oder
unvorhersehbar sein, damit ein stimulus oder eine handlung gelernt wird (prediction
error)
belohnung tritt nicht vorhersagbar nach einer handlung → positiver vorhersagefehler →
lernen über die konsequenzen der handlung, die zur belohnung führte
eine erwartete belohnung tritt nach einer wiederholung einer gelernten handlung nicht
ein → negativer vorhersagefehler → extinktion des verhaltens
15
reward prediction error
V = vorhersage
ΔV = veränderung der vorhersage
β & α = lernkonstanten
λ = belohnung
lernkurve - lernen ist proportional zum prediction error
sind konsequenzen einer handlung gelernt, fällt der
prediction error auf null und es werden keine neuen
informationen über die konsequenzen der handlung
gelernt
16
belohnungssignale im gehirn - affen
konditionierter stimulus
der belohnung vorhersagt
konditionierter stimulus
der fehlen von belohnung vorhersagt
bekannter neutraler stimulus
dopaminerger neurone im ventralen
tegmentum und der substantia nigra
zeigen weniger als 100 ms nach
darbietung von belohnungsreizen eine
phasische aktivierung (< 200 ms)
die selben neurone zeigen eine
verringerung ihrer feuerungsrate auf
auslassen von belohnung und auf
reize, die das fehlen einer belohnung
vorhersagen
neutrale stimuli verändern die feuerungsrate dieser neurone nicht
tobler (2005)
17
belohnungssignale im gehirn - affen
der affe kann das für ihn nicht sichtbare futter
berühren, in dem er seine hand unter die
sichtblende legt
berührung der futterbelohnung in abwesenheit
von stimuli, die die belohnung vorhersagen, löst
eine kurze erhöhung der feuerungsrate
dopaminerger neurone innerhalb von 0.5s nach
der bewegungseinleitung aus
18
belohnungssignale im gehirn - affen
keine vorhersage
belohnung tritt ein
belohnung vorhergesagt
belohnung tritt ein
die phasischen reaktionen auf belohnungen
kodieren die diskrepanz zwischen tatsächlicher
und erwarteter belohnung
so löst eine unvorhersehbare belohnung eine
erhöhung der feuerungsrate aus → positiver
prediction error
eine vorhergesagte belohnung verändert die
feuerungsrate dahingegen nicht
belohnung vorhergesagt
belohnung tritt nicht ein
eine angekündigte, aber ausbleibende belohnung
verringert die feuerungsrate → negativer
prediction error
19
belohnungssignale im gehirn - affen
keine Belohnung
keine Belohnung
Belohnung
Belohnung
keine Belohnung
keine Belohnung
keine Belohnung
keine Belohnung
Belohnung
Belohnung
blockierungsparadigma - stimulus
wird nicht gelernt, wenn er schon
mit einem voll prädizierenden
stimulus gepaart wird
inhibitionsparadigma - wenn ein
stimulus simultan mit einem voll
prädizierenden stimulus dargeboten
wird aber keine belohnung folgt,
sollte das den stimulus zu einem
konditionierten inhibitor machen,
d.h. einem stimulus der das
auslassen von belohnung prädiziert
- aber keine verringerung der
feuerungsrate bei auslassen von
belohnung
20
belohnungssystem - orbitofrontal cortex
versuchspersonen wurden gesichter
unterschiedlicher attraktivität präsentiert
eine region im medialen orbitofrontalen
k o r t e x z e i g t e s i g n i fi k a n t h ö h e re
aktivierung auf attraktive im vergleich zu
unattraktiven gesichtern
o’doherty et al. (2003)
21
belohnungssystem - orbitofrontal cortex
Text
kringelbach et al. (2003)
small et al. (2001)
versuchspersonen essen
kontinuierlich ein
bestimmtes, meist
wohlschmeckendes
lebensmittel bis zum punkt
der übersättigung
→ ein und derselbe stimulus verändert seinen
belohnungswert
→ aktivierung im medialen ofc korrespondiert mit
belohnungswert
→ aktivierung im lateralen ofc nimmt mit sinkendem
belohnungswert zu
ofc kodiert belohnungswert
22
belohnungssystem - ventrales striatum
klassische konditionierung
zwei visuelle stimuli
cs+ prädiziert eine belohnung
überraschungsdurchgänge in denen die
belohnung fehlt oder in denen dem cseine belohnung folgt
teile des ventralen striatums und des
ofc zeigen korrelation mit dem
prediction error
o’doherty et al. (2003)
23
belohnungssystem - ventrales striatum
expected value
risiko
versuchspersonen musste wetten, ob
die zweite von zwei karten höher oder niedriger
als die erste ist (keine karte ist bekannt)
danach wurde erste karte aufgedeckt →
kenntnis über expected reward & risk
ventrales striatum korrelierte mit beidem,
expected value und risiko
preuschoff et al. (2006)
24
belohnungssystem - ventrales striatum
ventrales striatum kodiert prediction error, risiko & belohnungswert
25
belohnungssystem - amygdala
anderson et al. (2003)
versuchspersonen rochen angenehme und unangenehme gerüche geringer
und hoher intensität
amygdala reagierte stärker auf höher als auf wenig intensive gerüche
ofc reagierte auf die valenz - der mediale ofc auf positive gerüche, der
laterale of auf negative gerüche
26
belohnungssystem - funktion der regionen
• ventrales striatum - prediction error, lernen, belohnungswert, risiko
• orbitofrontaler kortex - hat verbindungen zu primären sensorischen arealen,
höheren visuellen arealen & somatosensorischen kortex - speicherung
belohnungswert verschiedener sensorischer stimuli - medialer OFC spricht
auf belohnung an, lateraler teil auf bestrafung
• amygdala - intensität der belohnung
27
zusammenfassung & take home messages
• belohnungen sind dinge, die die auftretenswahrscheinlichkeit eines verhaltens
verändern, annäherungsverhalten bewirken, ergebnis von entscheidungen
sind und meist positive gefühle hervorrufen
• informationen über belohnungen werden von spezifischen neuronen in
spezifischen gehirnstrukturen verarbeitet → diese neurone produzieren
interne belohnungssignale welche gehirnaktivität beeinflussen, die unsere
handlungen und entscheidungen kontrollieren
• der wert einer belohnung ergibt sich nicht nur aus grösse und
eintretenswahrscheinlichkeit, sondern auch aus dem nutzen für den einzelnen
menschen, welcher wiederum von faktoren wie risikoaversion und dem
intervall zwischen belohnungsankündigung und -vergabe beeinflusst wird
28
zusammenfassung & take home messages
• belohnungssystem besteht unter anderem aus dem ventralen tegmentum und
der substantia nigra (pars compacta), dem striatum, dem orbitofrontalen
cortex und der amygdala
• dopamin ist der wichtigste neurotransmitter im belohnungssystem
(dopaminerge neurone im mittelhirn)
• feuerung dopaminerger neurone im mittelhirn bildet reward prediction error
ab, d.h. die diskrepanz zwischen erwarteter und erhaltener belohnung
• ventrales striatum kodiert prediction error, risiko & belohnungswert
• ofc kodiert das risiko & belohnungswert
• amygdala kodiert die intensität der belohnung
29
es folgt
30
ausblick
• temporal discounting - je mehr zeit bis zum belohnungserhalt verstreichen
muss, desto geringer wird nutzen der belohnung
tanaka et al. (2004)
• soziale präferenzen - outcomes anderer menschen werden in nutzenfunktion
mit einbezogen (altruismus, reziprozität, effizienz, gerechtigkeit)
31
vielen dank für ihre aufmerksamkeit
32