Belohnungslernen I Grit Hein, Tania Singer Webpage: http://www.socialbehavior.uzh.ch/singer.html Warum ist es interessant? Belohnung spielt bei jeder Kaufhandlung / jeder Transaktion eine Rolle Verstehen für welche Handlungen sich Menschen (Tiere) im Zusammenhang mit Belohnung oder Bestrafung entscheiden Wie lernen Menschen (Tiere) so zu handeln, dass der Nutzen (Utility) maximal ist, und Bestrafung vermieden wird? Optimierung = Basis rationaler Entscheidungen = eine der ökonomischen Hauptannahmen Abweichungen von solchen Vorhersagen erlauben „irrationale“ Entscheidungen / Verhaltensweisen besser zu verstehen Moderne Modelle des Belohnungslernens basieren auf einfachen Lernmodellen Einfache Lernmodelle • Klassisches Konditionieren • Operantes / Instrumentelles Konditionieren Beide Modelle gingen aus der Tradition des Behaviorismus hervor Behaviorismus Grundannahme des Behaviorismus = „Black-Box-Prinzip“ S Reiz (Stimulus) R Reaktion Messbar ist nur das beobachtbare Verhalten des Organismus. • Auf den Organismus (Black Box) wirken Reize ein. • das Verhalten ist eine Reaktion auf diese Reize. Klassisches Konditionieren Stellen Sie sich vor Sie schauen einen Horrorfilm. Der Held nähert sich einer Tür. Die Musik wird laut und bedrohlich. Ihr Herz fängt wie wild an zu schlagen und Ihre Hände werden feucht. Warum ?? Klassisches Konditionieren Ihr Körper hat eine physiologische Reaktion (Anstieg Herzrate) als Reaktion auf einen Reiz (bedrohliche Musik) gelernt, da dieser oft mit einem bestimmten Ereignis (der Held wird umgebracht) assoziiert war. Das ist Klassische Konditionierung. Ein ehemals neutraler Reiz (Musik) sagt ein bestimmtes Ereignis (Blut, Schmerz, „Horror“) hervor, was eine natürliche physiologische Reaktion bewirkt (Anstieg Herzrate). Erfolgreiche Konditionierung hat zur Folge, das der ehemals neutrale Reiz ausreicht, um die physiologische Reaktion auszulösen. Iwan Petrowitsch Pawlow (1849-1936) = „Vater“ der klassischen Konditionierung http://www.hermes‐press.com Untersuchte eigentlich Verdauungsvorgänge und sammelte dafür den Speichel von Hunden Um die Verdauung anzuregen, gab er ihnen Fleischpulver Überraschende Entdeckung: Hunde produzierten Speichel, noch bevor sie das Pulver bekamen, z.B. wenn sie den Assistenten an der Tür hörten Klassisches Konditionieren - Ablauf http://www.nwlink.com/~Donclark/hrd/history/pavlov.gif Klassisches Konditionieren - Begriffe Reiz, der natürliche physiologische Reaktion hervorruft (hier Nahrung) = unkonditionierter Reiz (US) Natürliche physiologische Reaktion (hier Speichelfluss) = unkonditionierte Reaktion (UR) Ehemals neutraler Reiz, der mit unkonditionierten Reiz gepaart wird (hier Ton) = konditionierter Reiz (CS) Reaktion die auf ehemals neutralen Reiz erfolgt (hier Speichelfluss bei Hören des Tones) = konditionierte Reaktion (CR) Klassisches Konditionieren: zeitliche Kopplung zwischen CS und US ist essentiell • Vorwärts - Konditionierung • Simultane Konditionierung • Rückwärts- Konditionierung Klassisches Konditionieren: Vorwärts zwei Formen: Delay- Konditionierung und Trace- Konditionierung „Delay“ Konditionierung CS wird vor US präsentiert, überlappt aber mit US CS UCS Time Am Effektivsten! Klassisches Konditionieren: Vorwärts „Trace“ Konditionierung CS wird vor US präsentiert, überlappt aber nicht mit US; wird entfernt bevor US erscheint CS UCS Konditionierung basiert auf Erinnerung („Trace“) des CS Klassisches Konditionieren: simultan CS und US beginnen und enden zur gleichen Zeit CS UCS Klassisches Konditionieren: Rückwärts CS beginnt nach US CS UCS Wenig effektiv, da US nicht wirklich von CS prädiktiert wird. Klassisches Konditionieren – Extinktion und Remission Strength of the CR In Lernphase (Acquisition) wird die Assoziation zwischen CS und US immer stärker, aber was passiert wenn der CS den US nicht mehr prädiktiert (kein Futter mehr nach Ton)? Extinktion – aber nach Pause kann CR wieder auftreten – Spontane Remission Acquisition CS + US Extinction Only CS break Spontaneous remission Only CS time Klassisches Konditionieren – Reizgeneralisation Wenn ein Kind von einem braunen Hund gebissen wurde, wird es sich auch vor schwarzen Hunden fürchten … Reaktionen auf einen bestimmten Reiz werden automatisch auf andere Reize erweitert, auch wenn diese nie zusammen mit dem Ereignis auftraten natürlicher „Sicherheitsmechanismus“: lieber Prädator generalisieren und weglaufen, als gefressen werden Klassisches Konditionieren – Reizdiskriminierung Verhalten nur basierend auf Reizgeneralisierung ist uneffektiv!! z.B. Angststörungen Reizdiskriminierung kann auch konditioniert werden: 1000 Hz Futter nur bei Tonfrequenz von 1200 Hz 1200 Hz 1500 Hz Operantes (Instrumentelles) Konditionieren Etwa zur gleichen Zeit als Pawlow russische Hunde trainierte, machte Edward L. Thorndike Versuche mit amerikanischen Katzen http://4.bp.blogspot.com Operantes (Instrumentelles) Konditionieren Zuerst versuchte die Katze sich den Weg aus dem Käfig herauszukämpfen. Dabei drückte sie zufällig den Hebel, der die Käfigtür öffnete, d.h. den erwünschten Effekt (Freiheit) hatte – „trial and error“ Wenn eine Reaktion (z.B. Hebel drücken) eine positive Konsequenz hat (Freiheit) steigt die Wahrscheinlichkeit das diese Reaktion wieder gezeigt wird, wenn eine negative Konsequenz folgt, sinkt die Wiederholungswahrscheinlichkeit. Thorndike: „Law of effect“; führt zum Erlernen von Assoziation zwischen Reiz (Hebel) und Response (Freiheit) Operantes Konditionieren: „Skinnerbox“ Skinner entwarf Versuchsanordnung, um operantes Konditionieren im Detail zu untersuchen Ratte bekommt Futter, wenn sie bestimmtes Verhalten zeigt (z.B. im Kreis rennen vor Hebel drücken) Komplexes Verhalten wird gelernt indem graduell belohnt wird = „Shaping“ Operantes Konditionieren Operantes Verhalten = Verhalten was Organismus zeigt, und was einen beobachtbaren Effekt hat • wird im Gegensatz zu Klassischen Konditionieren nicht durch einen Reiz ausgelöst Verhalten: Lachen, Brabbeln Effekt auf die Umwelt Operantes Konditionieren Operate Konditionierung verändert die Wahrscheinlichkeit des Auftretens operanten Verhaltens (Lachen im Vergleich zu still sein) als eine Funktion des Effektes auf die Umwelt (hochgenommen werden im Vergleich zu ignoriert werden) In der Umwelt hervorgerufener Effekt kann belohnend oder bestrafend sein Operantes Konditionieren: Verstärkung Positive Verstärkung Negative Verstärkung Hebeldruck Hebeldruck Futter erscheint Elektroschock endet Operantes Konditionieren: Verstärkung Verstärkung erhöht die Wahrscheinlichkeit des Auftretens eines bestimmten Verhaltensmusters. Verstärker werden empirisch darüber definiert, wie sie die Auftretenswahrscheinlichkeit eines Verhaltens beeinflussen. Positive Verstärker – belohnender Reiz erscheint Negative Verstärker – aversiver Reiz verschwindet Beide Arten von Verstärkern erhöhen die Auftretenswahrscheinlichkeit des gezeigten Verhaltens. Operantes Konditionieren: Bestrafung Positive Bestrafung Hebeldruck Elektroschock Negative Bestrafung Hebeldruck Futter erscheint nicht Operantes Konditionieren: Bestrafung Bestrafung verringert die Wahrscheinlichkeit des Auftretens eines bestimmten Verhaltensmusters. Positive Bestrafung – Verhalten ist gefolgt von Strafreiz Negative Bestrafung – Verhalten hat keine positive Konsequenz Operantes Konditionieren: Klassen von Verstärkern Primäre Verstärker Sekundäre / Konditionierte Verstärker Operantes Konditionieren: Klassen von Verstärkern Primäre Verstärker: • befriedigen biologische Grundbedürfnisse • die Verstärkungskapazität von primären Verstärkern ist von biologischen Variablen abhängig (Wie hungrig bin ich? Wie durstig? Etc) Sekundäre Verstärker: Ehemals neutrale Reize, die zu konditionierten Verstärkern werden, wenn sie mit primären Verstärkern assoziiert sind. z.B. Geld ist nichts anderes als bunte Scheine, wird aber zum starken sekundären Verstärker, da mit dem Erwerb von Essen etc assoziiert Rescorla-Wagner Modell Robert Rescorla, Allan Wagner (1972) = mathematisches Modell, was die klassische Konditionierung und einige ihrer wichtigsten Effekte vorhersagbar machen soll Grundannahme: Lernen passiert basiert auf Diskrepanz zwischen der konditionierten Erwartung und dem aktuellen Ergebnis = „Prediction Error“ Rescorla-Wagner Modell V (t +1) = V (t) + α (R(t) −V (t)) Learning history t α R(t) V(t) (R(t) −V (t)) Prediction error = Particular Learning Trial = Learning Rate = Actual Outcome = Predicted Outcome = Prediction Error Erwartete Konsequenz wird in jedem neuen Lerndurchgang aktualisiert, basierend auf der Summe des bereits Gelernten und des gewichteten „Prediction Error“ Positiver Prediction Error Das was gerade passiert / aktueller Zustand ist besser als erwartet Negativer Prediction Error Das was gerade passiert / aktueller Zustand ist besser schlechter als erwartet – oder wie erwartet! Grenzen des Rescorla-Wagner Modells • Prädiktion von „Second-order conditioning“: z.B. Reiz A prädiktiert Belohnung und Reiz B prädiktiert Reiz A • bezieht zeitliche Zusammenhänge zwischen CS und US nicht mit ein „Temporal difference learning rule“ (Sutton & Barton, 1990) Ausblick: Lernen im Gehirn • zentral: Neurotransmitter wie Dopamin • Hirnregionen: Striatum; Orbitofrontaler Kortex Striatum = Teil der Basalganglien Nucleus caudatus Putamen Nucleus accumbens Orbitofrontaler Kortex „Phineas Gage“ - Geschichte Zusammenfassung • es gibt zwei Arten von einfachen Lernmodellen: Klassisches und Operantes Konditionieren • beim Klassischen Konditionieren wird ein ehemals neutraler Reiz mit einem Reiz gekoppelt (US), der eine physiologische Reaktion (UR) hervorruft; der ehemals neutrale Reiz wird zum konditionierten Reiz (CS), der nun für sich allein eine konditionierte Reaktion (CR) hervorruft • am Effektivsten ist „Vorwärts-Konditionierung mit Delay“ • Extinktion – Remission / Reizgeneralisierung – Reizdiskriminierung Zusammenfassung • beim operanten Konditionieren wird durch „trial and error“ eine Assoziation zwischen einem Reiz (Hebel) und einer Konsequenz gelernt; verändert die Wahrscheinlichkeit des Auftretens operanten Verhaltens als eine Funktion des Effektes auf die Umwelt • Auftretenswahrscheinlichkeit des Verhaltens wird durch Verstärkung erhöht (positive/ negative Verstärkung) und durch Bestrafung verringert (positive/ negative Bestrafung) • zwei verschiedene Klassen von Verstärkern: primäre (Essen, Sex) und sekundäre / konditionierte (Geld) Zusammenfassung • Rescorla-Wagner-Modell als ein Weg Lernvorgänge zu simulieren • „Prediction error“: positiv und negativ Danke!