belohnungslernen II Susanne Leiberg & Tania Singer www.socialbehavior.uzh.ch 1 gliederung • wiederholung • aspekte von belohnung • belohnung in der expected utility theory • belohnung im gehirn • belohnungssystem - strukturen & transmitter • rolle des dopamins • zellableitungen beim affen • funktionelle bildgebung beim menschen 2 wiederholung • 2 arten einfacher lernmodelle - klassisches & operantes konditionieren • klassische konditionierung - wiederholte kopplung eines unkonditionierten stimulus (us) & eines konditionierten stimulus (cs) erreicht, dass die vorher nur vom us auslösbare unkonditionierte reaktion (ur) auch durch alleiniges darbieten des cs ausgelöst werden kann (cr) • operante konditionierung - erlernen assoziation reiz-verhalten-konsequenz, konsequenz (belohnung/bestrafung) bestimmt spätere auftretenswahrscheinlichkeit des verhaltens • rescorla-wagner-modell - mathematisches modell der klassischen konditionierung → neuigkeit des cs bestimmt, ob er verhalten beeinflusst • prediction error → wenn erwartete und tatsächliche verhaltenskonsequenz nicht übereinstimmen → lernen! 3 was sie nach dieser sitzung wissen sollten • aspekte und nutzen von belohnung • bestandteile des belohnungssystems • rolle des dopamins im belohnungslernen • neuronales korrelat des reward prediction errors • rolle der verschiedenen bestandteile des belohnungssystems in der verarbeitung von belohnung 4 belohnung • belohnung ist wichtig für das überleben • wir nutzen sie, um das optimale verhalten auszuwählen (jenes, welches belohnung maximiert) • belohnungen sind dinge, die die wahrscheinlichkeit und intensität einer handlung erhöhen (= lernen) • belohnungen führen zu annährungs- und konsummatorischen verhalten & sind outcomes von entscheidungen • belohnungen führen meist zu freude und positiven gefühlen 5 aspekte von belohnung ausdrückliches verlangen zielgerichtete pläne positive verhaltensverstärkung motivation lernen erwartung einer belohnung ‘wanting’ verknüpfung ursache-wirkung salienz bewusstes lustgefühl gefühle unbewusste affekte ‘liking’ abler (2005), nach berridge & robinson (2003) 6 belohnung in der expected utility theory • wie beeinflussen unterschiedliche belohnungen unser wahlverhalten? • für welches verhalten/produkt wir uns entscheiden hängt zum einen vom expected value ab n = anzahl belohnungen, p = auftretenswahrscheinlichkeit, x = belohnungswert • belohnungen mit höherem expected value werden nicht immer bevorzugt • andere faktoren bestimmen mit welche outcomes gewählt werden • outcomes werden daher gemessen nach dem nutzen (utility) die sie für den Entscheider haben n = anzahl belohnungen, p = auftretenswahrscheinlichkeit, x = belohnungswert, u = nutzen 7 belohnung in der expected utility theory • unterschiedliche menschen haben unterschiedliche nutzenfunktionen • ein wichtiger faktor der die nutzenfunktion beeinflusst, ist die unsicherheit mit der belohnung eintritt → für risikoaverse menschen reduziert sich nutzen einer belohnung mit unsicherheit (eine belohnung ist weniger wert für mich, wenn ich befürchte sie nicht zu bekommen) → für risikofreudige menschen erhöht sich der nutzen einer belohnung durch unsicherheit (ich mag die unsicherheit und bevorzuge deshalb riskante optionen statt sichere) EV = expected value EU = expected utility CE = certainty equivalent (point of choice indifference) risikoavers EU kleiner u(EV) risikofreudig EU grösser u(EV) 8 belohnung in der expected utility theory • anderer faktor der nutzen einer belohnung bestimmt ist die verzögerung mit der belohnung nach prädizierendem stimulus gegeben wird → menschen bevorzugen meist sofortige statt spätere belohnung → ABER: • dazu mehr in der nächsten vorlesung • mikroökonomische nutzentheorie hat dazu beigetragen basale belohnungsparameter zu definieren (stärke, expected value, expected utility) und wodurch sie beeinflusst werden (uncertainty) → korrelate im gehirn? 9 belohnung im gehirn - die anfänge olds & milner (1954) implantierten elektroden in die gehirne von raten, unter anderem im nucleus accumbens. wenn die raten einen hebel drückten, wurde das gehirn stimuliert. die raten drückten den hebel so oft, dass sie sogar die nahrungsaufnahme vergassen und oft an erschöpfung starben. → entdeckung belohnungszentrum 10 belohnung im gehirn - die anfänge einige psychopharmaka blockieren dopamin rezeptoren und verringern damit symptome wie halluzinationen oder verfolgungswahn zusätzlich führen diese medikamente zu einer affektverflachung (bei labortieren auch zur lernblockierung) es wurde geschlossen, dass dopamin die belohnenden, motivationalen aspekte von stimuli wie essen, wasser, sex aber auch drogen mediiert 11 belohnungssystem - strukturen ventrales striatum mit nucleus accumbens prefrontal cortex nucleus caudatus putamen substantia nigra ventrales tegmentum orbitofrontal cortex amygdala 12 belohnungssystem - transmitter • dopamin der wichtigste neurotransmitter im belohnungssystem • dopaminerge neurone in der substantia nigra (pars compacta) und dem ventralen tegmentum projizieren zum striatum (nucleus caudatus, putamen, ventrales striatum mit dem nucleus accumbens), orbitofrontalen cortex und zur amygdala 13 rolle des dopamins im belohnungslernen zunächst wurde die theorie aufgestellt, dass dopamin die stärke einer belohnung kodiert, d.h. dass umso mehr dopamin ausgeschüttet wird, umso grösser die belohnung ist. → dopamin wandelt erfahrungen in allgemeine belohnungsskala um →hypothese wurde verworfen, als man herausfand, dass dopaminausschüttung von erwartungen abhängt reward prediction error theorie des dopamins feuerungsrate von dopaminneuronen im ventralen tegmentum bildet den unterschied zwischen erhaltener und vorhergesagter belohnung ab 14 reward prediction error ausführung verhaltensantwort nein fehler aufrechterhaltung momentaner konnektivität ja aufrechterhaltung momentaner konnektivität generierung fehlersignal lernen hängt von der vorhersagbarkeit der belohnung ab → muss überraschend oder unvorhersehbar sein, damit ein stimulus oder eine handlung gelernt wird (prediction error) belohnung tritt nicht vorhersagbar nach einer handlung → positiver vorhersagefehler → lernen über die konsequenzen der handlung, die zur belohnung führte eine erwartete belohnung tritt nach einer wiederholung einer gelernten handlung nicht ein → negativer vorhersagefehler → extinktion des verhaltens 15 reward prediction error V = vorhersage ΔV = veränderung der vorhersage β & α = lernkonstanten λ = belohnung lernkurve - lernen ist proportional zum prediction error sind konsequenzen einer handlung gelernt, fällt der prediction error auf null und es werden keine neuen informationen über die konsequenzen der handlung gelernt 16 belohnungssignale im gehirn - affen konditionierter stimulus der belohnung vorhersagt konditionierter stimulus der fehlen von belohnung vorhersagt bekannter neutraler stimulus dopaminerger neurone im ventralen tegmentum und der substantia nigra zeigen weniger als 100 ms nach darbietung von belohnungsreizen eine phasische aktivierung (< 200 ms) die selben neurone zeigen eine verringerung ihrer feuerungsrate auf auslassen von belohnung und auf reize, die das fehlen einer belohnung vorhersagen neutrale stimuli verändern die feuerungsrate dieser neurone nicht tobler (2005) 17 belohnungssignale im gehirn - affen der affe kann das für ihn nicht sichtbare futter berühren, in dem er seine hand unter die sichtblende legt berührung der futterbelohnung in abwesenheit von stimuli, die die belohnung vorhersagen, löst eine kurze erhöhung der feuerungsrate dopaminerger neurone innerhalb von 0.5s nach der bewegungseinleitung aus 18 belohnungssignale im gehirn - affen keine vorhersage belohnung tritt ein belohnung vorhergesagt belohnung tritt ein die phasischen reaktionen auf belohnungen kodieren die diskrepanz zwischen tatsächlicher und erwarteter belohnung so löst eine unvorhersehbare belohnung eine erhöhung der feuerungsrate aus → positiver prediction error eine vorhergesagte belohnung verändert die feuerungsrate dahingegen nicht belohnung vorhergesagt belohnung tritt nicht ein eine angekündigte, aber ausbleibende belohnung verringert die feuerungsrate → negativer prediction error 19 belohnungssignale im gehirn - affen keine Belohnung keine Belohnung Belohnung Belohnung keine Belohnung keine Belohnung keine Belohnung keine Belohnung Belohnung Belohnung blockierungsparadigma - stimulus wird nicht gelernt, wenn er schon mit einem voll prädizierenden stimulus gepaart wird inhibitionsparadigma - wenn ein stimulus simultan mit einem voll prädizierenden stimulus dargeboten wird aber keine belohnung folgt, sollte das den stimulus zu einem konditionierten inhibitor machen, d.h. einem stimulus der das auslassen von belohnung prädiziert - aber keine verringerung der feuerungsrate bei auslassen von belohnung 20 belohnungssystem - orbitofrontal cortex versuchspersonen wurden gesichter unterschiedlicher attraktivität präsentiert eine region im medialen orbitofrontalen k o r t e x z e i g t e s i g n i fi k a n t h ö h e re aktivierung auf attraktive im vergleich zu unattraktiven gesichtern o’doherty et al. (2003) 21 belohnungssystem - orbitofrontal cortex Text kringelbach et al. (2003) small et al. (2001) versuchspersonen essen kontinuierlich ein bestimmtes, meist wohlschmeckendes lebensmittel bis zum punkt der übersättigung → ein und derselbe stimulus verändert seinen belohnungswert → aktivierung im medialen ofc korrespondiert mit belohnungswert → aktivierung im lateralen ofc nimmt mit sinkendem belohnungswert zu ofc kodiert belohnungswert 22 belohnungssystem - ventrales striatum klassische konditionierung zwei visuelle stimuli cs+ prädiziert eine belohnung überraschungsdurchgänge in denen die belohnung fehlt oder in denen dem cseine belohnung folgt teile des ventralen striatums und des ofc zeigen korrelation mit dem prediction error o’doherty et al. (2003) 23 belohnungssystem - ventrales striatum expected value risiko versuchspersonen musste wetten, ob die zweite von zwei karten höher oder niedriger als die erste ist (keine karte ist bekannt) danach wurde erste karte aufgedeckt → kenntnis über expected reward & risk ventrales striatum korrelierte mit beidem, expected value und risiko preuschoff et al. (2006) 24 belohnungssystem - ventrales striatum ventrales striatum kodiert prediction error, risiko & belohnungswert 25 belohnungssystem - amygdala anderson et al. (2003) versuchspersonen rochen angenehme und unangenehme gerüche geringer und hoher intensität amygdala reagierte stärker auf höher als auf wenig intensive gerüche ofc reagierte auf die valenz - der mediale ofc auf positive gerüche, der laterale of auf negative gerüche 26 belohnungssystem - funktion der regionen • ventrales striatum - prediction error, lernen, belohnungswert, risiko • orbitofrontaler kortex - hat verbindungen zu primären sensorischen arealen, höheren visuellen arealen & somatosensorischen kortex - speicherung belohnungswert verschiedener sensorischer stimuli - medialer OFC spricht auf belohnung an, lateraler teil auf bestrafung • amygdala - intensität der belohnung 27 zusammenfassung & take home messages • belohnungen sind dinge, die die auftretenswahrscheinlichkeit eines verhaltens verändern, annäherungsverhalten bewirken, ergebnis von entscheidungen sind und meist positive gefühle hervorrufen • informationen über belohnungen werden von spezifischen neuronen in spezifischen gehirnstrukturen verarbeitet → diese neurone produzieren interne belohnungssignale welche gehirnaktivität beeinflussen, die unsere handlungen und entscheidungen kontrollieren • der wert einer belohnung ergibt sich nicht nur aus grösse und eintretenswahrscheinlichkeit, sondern auch aus dem nutzen für den einzelnen menschen, welcher wiederum von faktoren wie risikoaversion und dem intervall zwischen belohnungsankündigung und -vergabe beeinflusst wird 28 zusammenfassung & take home messages • belohnungssystem besteht unter anderem aus dem ventralen tegmentum und der substantia nigra (pars compacta), dem striatum, dem orbitofrontalen cortex und der amygdala • dopamin ist der wichtigste neurotransmitter im belohnungssystem (dopaminerge neurone im mittelhirn) • feuerung dopaminerger neurone im mittelhirn bildet reward prediction error ab, d.h. die diskrepanz zwischen erwarteter und erhaltener belohnung • ventrales striatum kodiert prediction error, risiko & belohnungswert • ofc kodiert das risiko & belohnungswert • amygdala kodiert die intensität der belohnung 29 es folgt 30 ausblick • temporal discounting - je mehr zeit bis zum belohnungserhalt verstreichen muss, desto geringer wird nutzen der belohnung tanaka et al. (2004) • soziale präferenzen - outcomes anderer menschen werden in nutzenfunktion mit einbezogen (altruismus, reziprozität, effizienz, gerechtigkeit) 31 vielen dank für ihre aufmerksamkeit 32