Belohnungslernen I Philippe Tobler, Grit Hein, Susanne Leiberg Universität Zürich http://www.socialbehavior.uzh.ch/teaching/NeurooekonomieFS11.html 1 Gliederung der Vorlesung • Was ist Belohnungslernen (und Bestrafungslernen)? • Warum ist es wichtig? • Einfache Formen: klassisches und operantes Konditionieren • Einfache Theorien: Kontiguität und Vorhersagefehler • Nächste Vorlesung: Neuronale Grundlagen des Belohnungslernens 2 Was ist Belohnungslernen? • Das Verbinden von neutralen Reizen und Handlungen mit Wert/Nutzen (Belohnung/Bestrafung sind werttragende Reize) • Die Umwelt wird mit Wert versehen, wobei Geld eine Form 3 von Belohnung ist Was ist Belohnungslernen? Zum Beispiel dann, wenn Sie zum ersten Mal etwas Ihnen bisher Unbekanntes essen 4 Was ist Belohnungslernen? Belohnungslernen kann unabhängig von anderen stattfinden oder die Handlungen anderer als Informationsquelle beiziehen (individuelles versus soziales Lernen) 5 Was ist Belohnungslernen? Lernen unterscheidet sich von Instinkt und Reflex dadurch, dass es nicht angeboren, sondern erfahrungsabhängig und modifizierbar ist (wobei der Übergang fliessend ist, z.B. Prägung) 6 Warum ist Belohnungslernen wichtig? • Bildet die Grundlage von wertbezogenen Entscheidungen (Nutzenmaximierung/-optimierung, z.B. im Kaufverhalten; Annäherung oder Vermeidung; gefühlsrelevant) • Kann allenfalls Grundlage von zielgerichtetem Verhalten und von komplizerterem Lernen bilden • Kann helfen, die Umwelt schneller einzuschätzen und sich 7 deshalb erfolgreicher in ihr einzurichten (Fitnessmaximierung) Einfache Formen: Klassisches Konditionieren 8 Einfache Formen: Klassisches Konditionieren Stellen sie sich vor, Sie schauen sich einen Film an Der Held nähert sich einer Tür, die Musik verändert sich (wird z.B. lauter) Was geschieht mit Ihnen? Ihr Puls wird schneller Ihre Atmung wird schneller und flacher Warum? 9 Klassisches Konditionieren: Ein Beispiel Bedrohliche Musik ist in Filmen oft mit Gefahr für den Helden verbunden; ihre physiologische Reaktion darauf kann als klassisches Konditionieren interpretiert werden: • Ein ehemals neutraler Reiz (Musik) sagt ein bestimmtes Ereignis (Blut, Schmerz) hervor, was eine natürliche physiologische Reaktion bewirkt (Anstieg der Herzrate) • Erfolgreiche Konditionierung hat zur Folge, dass der ehemals neutrale Reiz ausreicht, um die physiologische Reaktion auszulösen 10 Einfache Formen: Klassisches Konditionieren David Hume: Philosophische Beschreibung assoziativen Lernens (z.B. Assoziation von Ursache und Effekt) Ivan Pavlov: Experimentelle Untersuchung klassischen Konditionierens als Form von assoziativem Lernen 11 Pavlovsches = klassisches Konditionieren • Pavlov untersuchte eigentlich Verdauungsvorgänge und sammelte dafür den Speichel von Hunden • Um die Verdauung anzuregen, gab er ihnen Fleischpulver • Überraschende Entdeckung: Hunde produzierten Speichel, noch bevor sie das Pulver bekamen, z.B. wenn 12 sie den Assistenten an der Tür hörten Klassisches Konditionieren: Ablauf 1. Vor Konditionierung Reaktion Fleischpulver Unkonditionierter Reiz 2. Vor Konditionierung Speichel Unkonditionierte Reaktion 3. Während Konditionierung Reaktion Tongabel + Fleischpulver Reaktion Tongabel Kein Speichel Neutraler Reiz Keine Reaktion 4. Nach Konditionierung Speichel Unkonditionierte Reaktion Reaktion Tongabel Konditionierter Reiz Speichel Konditionierte Reaktion 13 Klassisches Konditionieren: Begriffe • Reiz, der natürliche physiologische Reaktion hervorruft oder Bedürfnis stillt (hier Nahrung) = unkonditionierter Reiz (US) • Natürliche physiologische Reaktion (hier Speichelfluss) = unkonditionierte Reaktion (UR) • Ehemals neutraler Reiz, der mit unkonditionierten Reiz gepaart wird (hier Ton) = konditionierter Reiz (CS) • Reaktion die auf ehemals neutralen Reiz erfolgt (hier Speichelfluss bei Hören des Tones) = konditionierte Reaktion (CR) 14 Klassisches Konditionieren: Exzitatorisch vs. inhibitorisch Während Konditionierung Tongabel Nach Konditionierung (exzitatorisch) Reaktion Fleischpulver Unkonditionierte Reaktion Reaktion Tongabel Speichel Exzitatorische Konditionierter CR Exzitator Nach Konditionierung (inhibitorisch) Tongabel + Metronom Kein Fleischpulver Reaktion Metronom Kein Speichel Konditionierter Inhibitorische Inhibitor CR 15 Klassisches Konditionieren: Begriffe • CS, der CR hervorruft = Exzitator; exzitatorisches Konditionieren • CS, der CR unterdrückt = Inhibitor; inhibitorisches Konditionieren 16 Klassisches Konditionieren: Beispiele für US US können appetitiv oder aversiv sein (CS sind demgegenüber neutraler und lösen von sich aus kaum eine Reaktion aus) 17 Klassisches Konditionieren höherer Ordnung (… CS3 ->) CS2 -> CS1 -> US Ein vormals neutraler Reiz wird mit einem konditionierten Reiz gepaart Dadurch wird er zum konditionierten Reiz (zweiter Ordnung) Beispiele: Ton -> Fleischpulver; Ton = CS1 Licht -> Ton; Licht = CS2 (Anblick von Nahrung = CS1; Geld = CS2) 18 Delay versus Trace Konditionierung CS US Zeit Delay Konditionierung: CS überlappt zeitlich mit US 19 Delay versus Trace Konditionierung CS US Trace Zeit Trace Konditionierung: CS überlappt zeitlich nicht mit US; Konditionierung basiert auf Erinnerung von CS; Entwickelt sich langsamer als Delay Konditionierung 20 Klassische Konditionierung: Acquisition, Extinktion und spontane Remission Stärke der CR In der Lernphase (Acquisition) wird die Assoziation zwischen CS und US stärker, in der Extinktion schwächer, oder von CS -> kein US Assoziation überlagert; CR kann nach Ablauf von Zeit spontan wieder auftreten (Remission) Acquisition CS + US Nur CS (1. Extinktion) Spontane Remission Nur CS (2. Extinktion) Zeit 21 Klassische Konditionierung: Generalisierung Wenn ein Kind von einem braunen Labrador gebissen wird, fürchtet es sich oft auch vor Hunden anderer Farbe und Rasse Konditionierte Reaktionen auf einen CS können auf andere CS generalisiert werden, auch wenn diese nie zusammen mit dem US auftraten Sicherheitsmechanismus: lieber Prädator generalisieren 22 als gefressen werden Klassische Konditionierung: Diskriminierung Verhalten aufgrund von Generalisierung allein ist nicht optimal, z.B. Angststörungen CS- 900 Hz CS+ 1200 Hz CS- 1500 Hz US nur nach CS von 1200 Hz; die CR diskriminiert zwischen CS+ und CS- 23 Klassische Konditionierung: Diskriminierung vermindert Generalisierung Stärke der CR CS- (900 Hz) 1200 Hz CS+ CS+ CS- (1500 Hz) Tonhöhe (Hz) 24 Einfache Formen: Instrumentelles oder operantes Konditionieren Durch Versuch und Irrtum (trial and error) drückt die Katze zufällig den Hebel, welcher die Tür zum Futter öffnet 25 Einfache Formen: Instrumentelles oder operantes Konditionieren Edward Thorndike: Law of Effect – Wenn ein Verhalten eine positive Konsequenz (Effekt) hat, steigt die Wiederholungswahrscheinlichkeit dieses Verhaltens, bei einer 26 negativen Konsequenz sinkt sie Operantes Konditionieren mit der "Skinnerbox" Skinner entwarf Versuchsanordnung, um operantes Verhalten im Detail zu untersuchen Lautsprecher Lichter Ratte bekommt Belohnung wenn sie bestimmtes Verhalten zeigt, (z.B. im Kreis rennen vor Hebel drücken) Verhalten wird graduell durch Belohnung und Bestrafung erworben (shaping) Hebel Nahrungsabgabe Elektrfiziertes Netz 27 Operantes Konditionieren: Verstärkung Positive Verstärkung Negative Verstärkung Hebeldruck Hebeldruck Futter erscheint Elektroschock endet 28 Operantes Konditionieren: Verstärkung Verstärkung erhöht die Auftretenswahrscheinlichkeit eines bestimmten Verhaltens Das Erscheinen von appetitiven Reizen ist ein positiver Verstärker, die Abwesenheit von aversiven Reizen ein negativer Verstärker 29 Operantes Konditionieren: Verstärkung Beispiel aus der 1. Vorlesung 30 Operantes Konditionieren: Bestrafung Positive Bestrafung Negative Bestrafung Hebeldruck Hebeldruck Elektroschock Futter erscheint nicht 31 Operantes Konditionieren: Bestrafung Bestrafung vermindert die Auftretenswahrscheinlichkeit eines bestimmten Verhaltens Das Erscheinen von aversiven Reizen ist eine positive Bestrafung, die Abwesenheit (das Nicht-Erscheinen) von appetitiven Reizen eine negative Bestrafung 32 Primäre vs. sekundäre Verstärkung/Bestrafung 33 Primäre vs. sekundäre Verstärkung/Bestrafung Primäre Verstärkung/Bestrafung • Steht in direktem Bezug zu biologischen Grundbedürfnissen (z.B. Hunger oder Durst) oder Fitness Sekundäre Verstärkung/Bestrafung • Ehemals neutrale Reize, die zu konditionierter Verstärkung oder Bestrafung werden, wenn sie mit primärer Verstärkung oder Bestrafung assoziiert werden (z.B. Geld) 34 Klassische vs. operante Konditionierung Reiz (CS) – Reiz (US) Assoziation Verhalten – Effekt Assoziation CR is nicht notwendig, damit US erfolgt Verhalten ist notwendig, damit Effekt erfolgt Beide Formen von Konditionierung finden aber normalerweise parallel statt; operante Konditionierung kann auch unter diskriminativer Reizkontrolle stehen 35 Einfache Theorien: Kontiguität (zeitliche Nähe) Assoziation (CS und US oder Verhalten und Effekt) findet immer dann statt, wenn die beiden Komponenten zeitlich nahe aufeinander folgen (z.B. Hume) Aber: • Zeitliche Reihenfolge von CS und US spielt eine Rolle; Vorwärtsassoziation (CS-US) führt zu mehr exzitatorischem Konditionieren als Rückwärtsassoziation (US-CS) mit demselben Intervall • Konditionierte Geschmacksaversion erfolgt nach langen CS-US-Intervallen • Blocking-Experiment: wenig Lernen sogar wenn CS und US nahe und vorwärts aufeinanderfolgen 36 Zeitliche Reihenfolge: Rückwärtskonditionierung kann sogar inhibitorisch wirken CR US-CS-Intervall (sec) 37 Adapted from Hellstern et al., 1998 Konditionierte Geschmacksaversion Wenn ein Geschmack (CS) mit darauffolgendem Unwohlsein (US) assoziiert wird, kann der CS-US Intervall bis zu 12 Stunden betragen und sehr kurze CS-US-Intervalle (sec) scheinen weniger gut gelernt zu werden als längere (min) 38 Konditionierte Geschmacksaversion: Garcia et al., 1955 Blocking-Experiment: Kontiguität reicht nicht Phase 1 (preconditioning) Verhalten Ton – Schock Unterdrückung von Hebeldrücken für Nahrung Phase 2 (compound conditioning) Ton+Licht – Schock Unterdrückung Phase 3 (test) Licht allein Keine Unterdrückung 39 Kamin, 1969 Blocking-Experiment: Kontiguität reicht nicht Phase 1 (preconditioning) Ton – Schock Phase 2 (compound conditioning) Ton+Licht – Schock Licht erfolgt zeitlich genauso nah mit Schock wie der Ton; trotzdem wird nur der Ton gelernt 40 Kamin, 1969 Einfache Theorien: Rescorla & Wagner (1972) und Erweiterung durch Sutton & Barto (1981) Robert Rescorla Allan Wagner Richard Sutton Andrew Barto 41 Einfache Theorien: Rescorla & Wagner (1972) • Modell der klassischen Konditionierung • Grundannahme: Konditionierung geschieht immer dann, wenn ein Vorhersagefehler (prediction error) auftritt • Vorhersagefehler = Diskrepanz gibt zwischen konditionierter Erwartung und tatsächlichem Ergebnis • Blocking-Experiment: der Schock wurde vom Ton schon vorgesagt; das Licht wurde von keinem Vorhersagefehler gefolgt und deshalb erfolgt keine Konditionierung aufs Licht 42 Einfache Theorien: Rescorla & Wagner (1972) ∆ V = α β (λ −ΣV) Vorhersagefehler ∆ V Änderung im durch den CS vorhergesagten Wert (= Konditionierung) α, β Salienz von CS und US (Lernrate) λ Maximaler Wert, welcher vom US unvorhergesagt unterhalten werden kann ΣV Summierter vorhergesagter Wert aller gegenwärtigen CS (= bisheriges Lernen) Exzitatorische Konditionierung, Blocking und inhibitorische Konditionierung sind mit dem Modell erklärbar 43 Beispiel: Exzitatorische Konditionierung Wert (arbiträre Einheiten; US hat Wert von 20) Vorhergesagter Wert Vorhersagefehler Trials Problem: zeitliche Auflösung ist auf trial begrenzt; neuronale Systeme und Computer arbeiten aber viel schneller 44 Einfache Theorien: Sutton & Barto (1981) V(t+1) = V(t) + α(R(t)-V(t)) Vorhersagefehler • t = Zeit • α = Lernrate • R(t) = Ergebnis zur Zeit t • V(t) = Vorhergesagtes Ergebnis zur Zeit t Sutton & Barto, 1998 • Die Vorhersage wird aufgrund des bereits Gelernten und des gewichteten Vorhersagefehlers aktualisiert 45 Positive und negative Vorhersagefehler: Exzitatorisches & inhibitorisches Konditionieren Vorhersagefehler Phase 1 Phase 2 1 l l Fa Negativ Metronom: Inhibitor Fall 2 Fa ll 3 Null Metronom geblockt Positiv Metronom: Exzitator 46 Zusammenfassung I • Belohnungs- und Bestrafungslernen versehen Reize (v.a. klassisches Konditinieren) und Handlungen (v.a. operantes Konditionieren) mit Nutzen/Wert • Ursprünglich neutrale Reize können durch Assoziation mit US oder CS Wert annehmen (Konditionierung 1. oder höherer Ordnung) • Delay- und Vorwärtskonditionierung sind effektiver als Trace- und Rückwärtskonditionierung • Spezifizität und Verallgemeinerung durch Diskrimination und Generalisierung • Extinktion (lernen von CS-kein US Assoziation) und spontane Remission 47 Zusammenfassung II • Beim operanten Konditionieren: positive/negative Verstärkung erhöht Auftretenswahrscheinlichkeit eines Verhaltens, positivie/negative Bestrafung verringert sie • Das Rescorla-Wagner bzw. Sutton-Barto Modell erklärt Konditionieren als Verringerung von Fehlern in der Vorhersage des US; Blocking zeigt die Wichtigkeit solcher Fehler experimentell • Positive Vorhersagefehler liegen exzitatorischem Konditionieren zugrunde, negative inhibitorischem Konditionieren 48 Die Themen der Vorlesung im Überblick 23.02.2011 Einführung in die Neuroökonomie und Soziale Neurowissenschaft 02.03.2011 Das Gehirn: Anatomie und Funktionen 09.03.2011 Methoden I: fMRI und real-time fMRI; EEG 16.03.2011 Methoden II: TMS, Endokrinologie, Physiologie 23.03.2011 Belohnungslernen I 30.03.2011 Belohnungslernen II 06.04.2011 Risiko und Temporal Discounting 13.04.2011 Heuristiken und Bias 20.04.2011 Enttäuschung, Bedauern, Neid 04.05.2011 Vertrauen, Oxytocin und Amygdala 11.05.2011 Empathie, Theory of mind, Spiegelneuronensystem 18.05.2011 Soziale Kognition in Tieren 25.05.2011 Synopsis und Diskussion 15.06.2011 Klausur (16.15-17.45 Uhr); KO2-F-180 (A-N), KOL-F-101 (O-Z) 49 Vielen Dank für Ihre Aufmerksamkeit 50