PDF, 729 KB

Werbung
Belohnungslernen I
Grit Hein, Tania Singer
Webpage: http://www.socialbehavior.uzh.ch/singer.html
Warum ist es interessant?
Belohnung spielt bei jeder Kaufhandlung /
jeder Transaktion eine Rolle
Verstehen für welche Handlungen sich
Menschen (Tiere) im Zusammenhang mit
Belohnung oder Bestrafung entscheiden
Wie lernen Menschen (Tiere) so zu handeln,
dass der Nutzen (Utility) maximal ist, und
Bestrafung vermieden wird?
Optimierung = Basis rationaler Entscheidungen =
eine der ökonomischen Hauptannahmen
Abweichungen von solchen Vorhersagen erlauben
„irrationale“ Entscheidungen / Verhaltensweisen
besser zu verstehen
Moderne Modelle des Belohnungslernens
basieren auf einfachen Lernmodellen
Einfache Lernmodelle
• Klassisches Konditionieren
• Operantes / Instrumentelles Konditionieren
Beide Modelle gingen aus der Tradition des
Behaviorismus hervor
Behaviorismus
Grundannahme des Behaviorismus =
„Black-Box-Prinzip“
S
Reiz
(Stimulus)
R
Reaktion
Messbar ist nur das beobachtbare Verhalten des
Organismus.
• Auf den Organismus (Black Box) wirken Reize ein.
• das Verhalten ist eine Reaktion auf diese Reize.
Klassisches Konditionieren
Stellen Sie sich vor Sie schauen einen
Horrorfilm.
Der Held nähert sich einer Tür. Die
Musik wird laut und bedrohlich.
Ihr Herz fängt wie wild an zu schlagen
und Ihre Hände werden feucht.
Warum ??
Klassisches Konditionieren
Ihr Körper hat eine physiologische Reaktion (Anstieg
Herzrate) als Reaktion auf einen Reiz (bedrohliche
Musik) gelernt, da dieser oft mit einem bestimmten
Ereignis (der Held wird umgebracht) assoziiert war.
Das ist Klassische Konditionierung.
Ein ehemals neutraler Reiz (Musik) sagt ein
bestimmtes Ereignis (Blut, Schmerz, „Horror“) hervor,
was eine natürliche physiologische Reaktion bewirkt
(Anstieg Herzrate).
Erfolgreiche Konditionierung hat zur Folge, das der
ehemals neutrale Reiz ausreicht, um die physiologische
Reaktion auszulösen.
Iwan Petrowitsch Pawlow (1849-1936)
= „Vater“ der klassischen Konditionierung
http://www.hermes‐press.com
Untersuchte eigentlich Verdauungsvorgänge und sammelte
dafür den Speichel von Hunden
Um die Verdauung anzuregen, gab er ihnen Fleischpulver
Überraschende Entdeckung: Hunde produzierten Speichel,
noch bevor sie das Pulver bekamen, z.B. wenn sie den
Assistenten an der Tür hörten
Klassisches Konditionieren - Ablauf
http://www.nwlink.com/~Donclark/hrd/history/pavlov.gif
Klassisches Konditionieren - Begriffe
Reiz, der natürliche physiologische Reaktion hervorruft
(hier Nahrung) = unkonditionierter Reiz (US)
Natürliche physiologische Reaktion (hier Speichelfluss)
= unkonditionierte Reaktion (UR)
Ehemals neutraler Reiz, der mit unkonditionierten Reiz
gepaart wird (hier Ton) = konditionierter Reiz (CS)
Reaktion die auf ehemals neutralen Reiz erfolgt (hier
Speichelfluss bei Hören des Tones) = konditionierte
Reaktion (CR)
Klassisches Konditionieren: zeitliche Kopplung
zwischen CS und US ist essentiell
• Vorwärts - Konditionierung
• Simultane Konditionierung
• Rückwärts- Konditionierung
Klassisches Konditionieren: Vorwärts
zwei Formen:
Delay- Konditionierung und Trace- Konditionierung
„Delay“ Konditionierung
CS wird vor US präsentiert, überlappt aber mit US
CS
UCS
Time
Am Effektivsten!
Klassisches Konditionieren: Vorwärts
„Trace“ Konditionierung
CS wird vor US präsentiert, überlappt aber nicht mit US;
wird entfernt bevor US erscheint
CS
UCS
Konditionierung basiert auf Erinnerung („Trace“) des CS
Klassisches Konditionieren: simultan
CS und US beginnen und enden zur gleichen Zeit
CS
UCS
Klassisches Konditionieren: Rückwärts
CS beginnt nach US
CS
UCS
Wenig effektiv, da US nicht wirklich von CS prädiktiert
wird.
Klassisches Konditionieren – Extinktion und
Remission
Strength of the CR
In Lernphase (Acquisition) wird die Assoziation
zwischen CS und US immer stärker, aber was
passiert wenn der CS den US nicht mehr prädiktiert
(kein Futter mehr nach Ton)?
Extinktion – aber nach Pause kann CR wieder
auftreten – Spontane Remission
Acquisition
CS + US
Extinction
Only CS
break
Spontaneous remission
Only CS
time
Klassisches Konditionieren –
Reizgeneralisation
Wenn ein Kind von einem braunen
Hund gebissen wurde, wird es sich
auch vor schwarzen Hunden
fürchten …
Reaktionen auf einen bestimmten Reiz werden automatisch
auf andere Reize erweitert, auch wenn diese nie zusammen
mit dem Ereignis auftraten
natürlicher „Sicherheitsmechanismus“: lieber Prädator
generalisieren und weglaufen, als gefressen werden
Klassisches Konditionieren –
Reizdiskriminierung
Verhalten nur basierend auf Reizgeneralisierung ist
uneffektiv!! z.B. Angststörungen
Reizdiskriminierung kann auch konditioniert werden:
1000 Hz
Futter nur bei Tonfrequenz
von 1200 Hz
1200 Hz
1500 Hz
Operantes (Instrumentelles) Konditionieren
Etwa zur gleichen Zeit als Pawlow russische Hunde
trainierte, machte Edward L. Thorndike Versuche mit
amerikanischen Katzen
http://4.bp.blogspot.com
Operantes (Instrumentelles) Konditionieren
Zuerst versuchte die Katze sich den Weg aus dem Käfig
herauszukämpfen.
Dabei drückte sie zufällig den Hebel, der die Käfigtür
öffnete, d.h. den erwünschten Effekt (Freiheit) hatte –
„trial and error“
Wenn eine Reaktion (z.B. Hebel drücken) eine positive
Konsequenz hat (Freiheit) steigt die Wahrscheinlichkeit
das diese Reaktion wieder gezeigt wird, wenn eine negative
Konsequenz folgt, sinkt die Wiederholungswahrscheinlichkeit.
Thorndike: „Law of effect“;
führt zum Erlernen von Assoziation zwischen
Reiz (Hebel) und Response (Freiheit)
Operantes Konditionieren: „Skinnerbox“
Skinner entwarf Versuchsanordnung, um operantes
Konditionieren im Detail zu untersuchen
Ratte bekommt Futter,
wenn sie bestimmtes
Verhalten zeigt (z.B. im Kreis
rennen vor Hebel drücken)
Komplexes Verhalten wird
gelernt indem graduell
belohnt wird
= „Shaping“
Operantes Konditionieren
Operantes Verhalten = Verhalten was Organismus zeigt,
und was einen beobachtbaren Effekt hat
• wird im Gegensatz zu Klassischen Konditionieren
nicht durch einen Reiz ausgelöst
Verhalten:
Lachen, Brabbeln
Effekt auf die
Umwelt
Operantes Konditionieren
Operate Konditionierung verändert die Wahrscheinlichkeit
des Auftretens operanten Verhaltens (Lachen im Vergleich
zu still sein) als eine Funktion des Effektes auf die
Umwelt (hochgenommen werden im Vergleich zu ignoriert
werden)
In der Umwelt hervorgerufener Effekt kann belohnend oder
bestrafend sein
Operantes Konditionieren: Verstärkung
Positive Verstärkung
Negative Verstärkung
Hebeldruck
Hebeldruck
Futter erscheint
Elektroschock endet
Operantes Konditionieren: Verstärkung
Verstärkung erhöht die Wahrscheinlichkeit des
Auftretens eines bestimmten Verhaltensmusters.
Verstärker werden empirisch darüber definiert, wie sie
die Auftretenswahrscheinlichkeit eines Verhaltens
beeinflussen.
Positive Verstärker – belohnender Reiz erscheint
Negative Verstärker – aversiver Reiz verschwindet
Beide Arten von Verstärkern erhöhen die Auftretenswahrscheinlichkeit des gezeigten Verhaltens.
Operantes Konditionieren: Bestrafung
Positive Bestrafung
Hebeldruck
Elektroschock
Negative Bestrafung
Hebeldruck
Futter erscheint nicht
Operantes Konditionieren: Bestrafung
Bestrafung verringert die Wahrscheinlichkeit des
Auftretens eines bestimmten Verhaltensmusters.
Positive Bestrafung – Verhalten ist gefolgt von Strafreiz
Negative Bestrafung – Verhalten hat keine positive
Konsequenz
Operantes Konditionieren: Klassen von
Verstärkern
Primäre Verstärker
Sekundäre / Konditionierte
Verstärker
Operantes Konditionieren: Klassen von
Verstärkern
Primäre Verstärker:
• befriedigen biologische Grundbedürfnisse
• die Verstärkungskapazität von primären Verstärkern ist
von biologischen Variablen abhängig
(Wie hungrig bin ich? Wie durstig? Etc)
Sekundäre Verstärker:
Ehemals neutrale Reize, die zu konditionierten
Verstärkern werden, wenn sie mit primären Verstärkern
assoziiert sind.
z.B. Geld ist nichts anderes als bunte Scheine, wird aber
zum starken sekundären Verstärker, da mit dem Erwerb
von Essen etc assoziiert
Rescorla-Wagner Modell
Robert Rescorla, Allan Wagner (1972)
= mathematisches Modell, was die klassische
Konditionierung und einige ihrer wichtigsten Effekte
vorhersagbar machen soll
Grundannahme: Lernen passiert basiert auf Diskrepanz
zwischen der konditionierten Erwartung und dem
aktuellen Ergebnis
= „Prediction Error“
Rescorla-Wagner Modell
V (t +1) = V (t) + α (R(t) −V (t))
Learning history
t
α
R(t)
V(t)
(R(t) −V (t))
Prediction error
= Particular Learning Trial
= Learning Rate
= Actual Outcome
= Predicted Outcome
= Prediction Error
Erwartete Konsequenz wird in jedem neuen Lerndurchgang aktualisiert,
basierend auf der Summe des bereits Gelernten und des gewichteten
„Prediction Error“
Positiver Prediction Error
Das was gerade passiert / aktueller Zustand ist besser
als erwartet
Negativer Prediction Error
Das was gerade passiert / aktueller Zustand ist besser
schlechter als erwartet – oder wie erwartet!
Grenzen des Rescorla-Wagner Modells
• Prädiktion von „Second-order conditioning“:
z.B. Reiz A prädiktiert Belohnung und Reiz B prädiktiert
Reiz A
• bezieht zeitliche Zusammenhänge zwischen CS und
US nicht mit ein
„Temporal difference learning rule“
(Sutton & Barton, 1990)
Ausblick: Lernen im Gehirn
• zentral: Neurotransmitter wie Dopamin
• Hirnregionen: Striatum; Orbitofrontaler Kortex
Striatum = Teil der Basalganglien
Nucleus caudatus
Putamen
Nucleus accumbens
Orbitofrontaler Kortex
„Phineas Gage“ - Geschichte
Zusammenfassung
• es gibt zwei Arten von einfachen Lernmodellen:
Klassisches und Operantes Konditionieren
• beim Klassischen Konditionieren wird ein ehemals
neutraler Reiz mit einem Reiz gekoppelt (US), der eine
physiologische Reaktion (UR) hervorruft; der ehemals
neutrale Reiz wird zum konditionierten Reiz (CS), der
nun für sich allein eine konditionierte Reaktion (CR)
hervorruft
• am Effektivsten ist „Vorwärts-Konditionierung mit Delay“
• Extinktion – Remission / Reizgeneralisierung – Reizdiskriminierung
Zusammenfassung
• beim operanten Konditionieren wird durch „trial and
error“ eine Assoziation zwischen einem Reiz (Hebel)
und einer Konsequenz gelernt; verändert die Wahrscheinlichkeit des Auftretens operanten Verhaltens als
eine Funktion des Effektes auf die Umwelt
• Auftretenswahrscheinlichkeit des Verhaltens wird durch
Verstärkung erhöht (positive/ negative Verstärkung) und
durch Bestrafung verringert (positive/ negative Bestrafung)
• zwei verschiedene Klassen von Verstärkern:
primäre (Essen, Sex) und sekundäre / konditionierte (Geld)
Zusammenfassung
• Rescorla-Wagner-Modell als ein Weg Lernvorgänge
zu simulieren
• „Prediction error“: positiv und negativ
Danke!
Herunterladen