Instrumentelles Lernen – Operantes Konditionieren

Abb. 38: Aktivierung
durch Erotik
2.7 Reiz-Reaktions-Lernen in verschiedenen Bereichen
49
ad 3.
NS: neutraler Reiz
US: unkonditionierter Reiz
CS: konditionierter Reiz
UR: unkonditionierte Reaktion
CR: konditionierte Reaktion
Instrumentelles Lernen –
Operantes Konditionieren
Übersicht
 Einführung: Die „Skinner-Box“
 Unterschied zwischen klassischem und operantem K.
 Arten von Verhaltenskonsequenzen („Verstärkung“)
 Verstärkung und Verstärkerpläne
 Zeitpunkt der Verstärkung
 Diskriminative Reize und Generalisation von Verhalten
 Shaping
 Negative Verstärkung vs. Bestrafung
 Fremd- vs. Selbstverstärkung
 Techniken der Verhaltensmodifikation
Operantes Konditionieren
(aus LeFrancois, 1986)
Burrhus F. Skinnner (1904-1990)
 Skinner-Box: erlaubt, Erwerb und Löschung von
Verhalten systematisch als Funktion von Verstärkungsart
und Verstärkungsplan zu studieren.
Unterschied zwischen klassischer und
operanter Konditionierung
Mit dem Begriff instrumentelles Lernen bezeichnet man
solche Lernsituationen, in denen Ereignisse von der
Ausführung einer Reaktion abhängen.
 Klassisches Konditionieren: Der US tritt als bedeutsames
Ereignis unabhängig von der Reaktion (CR) auf
( respondentes oder Antwortverhalten)
 Instrumentellen Lernen: Kontingenz zwischen Reaktion
und ihrer Konsequenz
( operantes oder Wirkverhalten)
Verhalten = Instrument / Mittel, das die Konsequenz
hervorruft
Edward L. Thorndike (1911): Trial and error learning
 Gesetzes der Wirkung („law of effect“): erfolgreiches
Verhalten tendiert dazu, häufiger aufzutreten.
Was ist „Verstärkung“?
 Da es schwer ist, einen Verstärker inhaltlich zu
definieren, hat Skinner (1938) eine rein operationale
Definition gegeben.
 Definition Verstärker:
Ein Verstärker ist ein Reiz, der die Auftretenswahrscheinlichkeit einer Reaktion erhöht.
 Für Lernen muss eine Kontingenz zwischen Verhalten
und Konsequenz (d.h. dem Verhaltenseffekt) bestehen
Kontingenz = Zusammenhang, Regelmäßigkeit, hoher
Grad an Wahrscheinlichkeit.
Arten von Verstärkung
Tabelle.
Verstärkung und Bestrafung beim operantem Konditionieren
Reiz (Verhaltenskonsequenz)
_____________________________________
angenehm
Einer Situation
nach einer
Reaktion
hinzugefügt
Positive Verstärkung
(Aufbau)
Aus einer
Situation nach
Bestrafung
einer Reaktion
(Abbau)
entfernt (Entzug)
Keine Konsequenz  Löschung

unangenehm
Bestrafung
(Abbau)
Negative Verstärkung
(Aufbau)
Motivation des Lerners bestimmt den Aufforderungscharakter (= emotionaler Wert) des Verstärkers
- Verhaltensaufbau / -abbau findet nur statt, wenn der
Lerner über ein Bedürfnis verfügt, die Konsequenz
herbeizuführen / zu meiden
- z.B. wirkt eine Futterpille nur bei hungrigen, nicht bei
satten Ratten
- z.B. kann ein Verweis aus dem Klassenzimmer durchaus
belohnende Komponenten haben
Positive Verstärkung
IV
Tisch decken
K V+
Lob der Eltern
Negative Verstärkung
IV
Hausaufgaben
Erledigen
K -av
Drohung wird
nicht wahrgemacht
 Drohung: auch vorgestellte oder erwartete Konsequenzen sind
unangenehme Reize
Bestrafung
- entweder Darbietung negativer Reize oder Entzug positiver
Reize
IV
Schlagen
K av
Schimpfen
Kein Fernsehen
Löschung
7
IV
Fluch
K0
Nichtbeachtung
Primäre vs. sekundäre Verstärker
Primäre Verstärker
 Nahrung oder Schmerzreize sind Beispiele für primäre
Verstärker, die ohne vorherige Lernvorgänge verstärkend
wirken.
Sekundäre (generalisierte) Verstärker
 Werden ursprünglich neutrale Reize (z.B. bunte
Papierscheine) mit primären Verstärkern gepaart, können
auch solche neutralen Reize zu Verstärkern werden (z.B.
wird aus bunten Papierscheinen Geld), die man dann
sekundäre oder generalisierte Verstärker nennt.
Sekundäre Verstärker vs. konditionierte Reize höherer
Ordnung
 Die Unterscheidung zwischen unbedingten Verstärkern
und gelernten (bedingten) sekundären Verstärkern lässt
sich auf das klassische Konditionieren höherer Ordnung
übertragen, wo ursprünglich neutrale Reize (CS) durch
Lernprozesse Qualitäten von unbedingten Reizen
annehmen können.
Verstärkerpläne
 Verstärkerpläne unterscheiden sich vor allem darin, ob
jede gewünschte Reaktion verstärkt wird (kontinuierliche
Verstärkung) oder nicht (intermittierende Verstärkung).
 Intermittierende Verstärkung:
Quotenverstärkung: basiert auf der Reaktionshäufigkeit,
Intervallverstärkung: basiert auf Zeitintervallen
 Beide können entweder fest oder variabel sein.
z.B. fester Quotenplan: genau jede fünfte Reaktion wird
verstärkt
z.B. variabler Intervallplan: im Durchschnitt wird alle
fünf Minuten ein Verstärker gegeben
Kontinuierlich
(jede Reaktion
wird verstärkt)
Quote
(Verstärkung basiert auf
Reaktionshäufigkeit)
Fest
(V nach jeder
5. korrekten R)
Variabel
(durchschnittlich V bei
1 von 5
korrekten R)
Intermittierend
(nicht alle Reaktionen
werden verstärkt)
Intervall
(Verstärkung basiert auf
Zeitintervallen)
Fest
(V nach der 1.
korrekten R
nach einem 5Min-Intervall)
Variabel
(durchschnittlich 1 V pro 5Min-Intervall)
Auswirkung auf Erwerb und Löschung
 Neue Verhaltensweisen werden am schnellsten erworben,
wenn zunächst jede Reaktion verstärkt wird.
 Unter diesen Bedingungen wird das gelernte Verhalten
allerdings auch sehr schnell wieder eingestellt, wenn
keine Verstärkung mehr gegeben wird, d.h. das gelernte
Verhalten ist nicht sehr löschungsresistent.
 Die Löschung von Verhalten vollzieht sich langsamer,
wenn die gewünschten Reaktionen vorher nur
intermittierend verstärkt wurde.
Zeitpunkt der Verstärkung
 Eine wichtige Variable für das operante Konditionieren
ist das zeitliche Intervall, das zwischen Reaktion und
Verstärkung liegt.
 Ähnlich wie beim klassischen Konditionieren hat sich
hier gezeigt, dass am besten gelernt wird, wenn dieses
Intervall kurz ist.
 Intervalle in der Größenordnung von 500 ms haben sich
als optimal herausgestellt, während deutlich längere
Intervalle das Lernen beeinträchtigen.
 Dieser Zusammenhang zwischen Kontiguität und
Lernerfolg wurde auch von Shanks und Dickinson (1991)
gefunden, die menschliche Kausalurteile in operanten
Lernsituation untersuchten.
Diskriminative (situative) Reize
D
S
IV
K
Keine
Beleuchtung
Einbruch
Erfolg
Beleuchtung
Einbruch
Kein Erfolg
 SD = Hinweisreiz,
- signalisiert, welcher Art die nachfolgenden
Konsequenzen sein werden
 Führt zu Situationsabhängigkeit des Verhaltens
(Diskriminationslernen)
- Verhalten wird unter bestimmten situativen
Bedingungen gelernt und wird später nur in ähnlichen
Situationen gezeigt.
 Transfer ist beim instrumentellen Lernen nur begrenzt
möglich
- Gelerntes wird nur schwer auf neue Situationen
übertragen
- Instrumentelles Verhalten ist meist relativ starr und
gewohnheitsmäßig.
Generalisation von Verhalten und
situative Diskrimination
Stufenweise Annäherung („Shaping“)
 Dies ist eine von Skinner entwickelte Methode, um
Versuchstieren neue Verhaltensweisen beizubringen, die
die Tiere normalerweise nicht (oder nur ganz selten)
ausführen würden (z.B. sich im Kreis zu drehen).
1. Dazu wartet man, bis das Tier eine leichte
Bewegung in die vom Experimentator gewünschte
Richtung, z.B. nach links, ausführt und verstärkt
dies durch die Gabe von etwas Futter.
2. Dies sollte nach dem Gesetz der Wirkung dazu
führen, dass diese Bewegung häufiger auftritt.
3. Als nächstes wird allerdings nur eine Bewegung
verstärkt, die noch etwas weiter nach links geht, und
schließlich wird nur noch eine volle Drehung
verstärkt.
 Auf diese Art kann man Tieren relative komplexe
Verhaltensfolgen beibringen.
 Tiertrainer benutzen für die Dressur ähnliche Methoden.
Negative Verstärkung
 Entzug einer aversiven Konsequenz führt zu Intensivierung
eines Verhaltens
 Fluchtlernen: Person wird direkt mit dem aversiven
Ereignis konfrontiert und ergreift Maßnahmen, diesem zu
entkommen
 Vermeidungslernen: Person wird durch Signalreiz gewarnt
und ergreift Maßnahmen, das aversive Ereignis
vorbeugend zu vermeiden
(wichtig: aktives Vermeiden: Person tut etwas!
Alternative: passives Vermeiden = Unterlassen einer
Verhaltensweise, tritt nach Bestrafung auf)
Bestrafung
 Darbietung einer aversiven Konsequenz oder Entzug einer
angenehmen Konsequenz führt zu Abbau/ Unterdrückung
eines Verhaltens
 Strafe oder Strafandrohung kann Verhalten nur unterdrücken, nicht aufbauen
Abb. 55: Permissives Verhalten führt zu wechselseitigen Lernprozessen (aus: Bretecher, 1978)
3.5 Bestrafung
Abbildung 2.4
Eine weiße Ratte und ein Hund lösen keine Furchtreaktion aus
`(aus Watson, 1928, S. 24, 25)
Abbildung 2.6
Eine Nikolausmaske löst eine Furchtreaktion aus (aus Watson, 1928, S. 28)
Zweifaktoren Theorie der Angstvermeidung
(Mowrer, 1947)
1. Klassisches Konditionieren
Schule
(NS)
Hänseln
(US)
Angst
(UR)
Angst
(CR)
Schule
(CS)
2. Instrumentelles Lernen (Vermeidungslernen)
Angstmotivation
IV
Schwänzen
K-av
Angstminderung
 Vermeidungsverhalten ist sehr löschungsresistent, weil es
verhindert, dass der Lerner erfährt, dass CS und US nicht
mehr gekoppelt sind.
 Therapie: Konfrontation: Person muss sich dem CS stellen,
um erfahren zu können, dass der US nicht mehr auftritt.
Wirksamkeit von Bestrafung
Bestrafung ist wenig wirksam bei
 stabilem Verhalten.
 hoher Motivation für Verhalten.
Wirksame Bestrafung ist
 unmittelbar.
 intensiv.
 zunächst kontinuierlich.
Ergänzend sollte ein alternatives, inkompatibles Verhalten
aufgebaut werden.
Nebenwirkungen von Bestrafung
 Generalisierung des aversiven Reizes (auf Bestrafenden)
 Angstvermeidung
 Lernen von aggressiven Verhaltensweisen (Modelllernen)
 Ambiguität von Strafreizen (Zuwendung von
Aufmerksamkeit kann als belohnend erlebt werden)
Löschung als Ausweg?
IV
Fluch
K0
Nichtbeachtung
Löschung vs. Bestrafung:
 Bestrafung: dem Entzug positiver Konsequenzen gehen
Hinweisreize (Verbot, Strafandrohung) voraus
 Löschung: Ausbleiben positiver Verstärkung ohne
Hinweisreiz
Probleme bei der Löschung:
 konsequente Nicht-Verstärkung ist schwierig
 gelegentliche / intermittierende Verstärkung führt zu
löschungsresistentem Verhalten
 Selbstverstärkung
 Verhalten wird häufig zunächst intensiviert, um die
erwarteten positiven Konsequenzen doch noch
herbeizuführen
Wirksamkeit der Löschung wird erhöht, wenn gleichzeitig ein
mit dem unerwünschten Verhalten unvereinbares
(inkompatibles) Verhalten aufgebaut wird.
Fremd- vs. Selbstverstärkung
(bzw. Kontrolle des Verhaltens)
Selbstverstärkung als Komponente von Selbstregulation (F.
Kanfer)
 Selbstbeobachtung
 Selbstbewertung
 Selbstverstärkung
Bei Vorhandensein eines Konflikts: Selbstkontrolle
Techniken der Verhaltensmodifikation
Verhaltenstherapie: Grundannahme: „pathologisches“ und
„normales“ Verhalten werden auf die gleiche Art gelernt
Therapie = „therapeutisches Lernen“, Verlernen oder
Umlernen des „pathologischen“ Verhaltens
Aufbauend auf Konzepten der klassischen
Konditionierung
- vor allem bei emotionellen Problemen (z.B. Angst)
Gegenkonditionierung:
(1) Eine als angenehm erlebte Reiz-Reaktions-Verbindung
wird durch die Darbietung eines aversiven Reizes
abgebaut (z.B. Medikamente, die bei Alkohol Übelkeit
hervorrufen)
(2) Eine als aversiv erlebte Reiz-Reaktions-Verbindung wird
durch die Verwendung eines Sicherheitsreizes
unterbrochen (z.B. Vorstellen einer angstauslösenden
Situation plus Entspannung)
Systematische Desensibilisierung:
- Patient soll schrittweise an immer angstauslösendere
Situationen denken, aber sich dabei vollständig entspannen
- Voraussetzung: Hierarchie von Angst-Stuationen erstellen
Aufbauend auf Konzepten des instrumentellen
Lernens
- vor allem Veränderung von Verhaltensweisen (z.B. Abbau
von zwanghaftem Verhalten, Aufbau von Selbstbewusstsein)
Therapie-Verträge:
- Patient verpflichtet sich zur Erprobung bestimmter
Verhaltensweisen; Belohnung bei Erreichen des
vereinbarten Ziels
Token-Systeme:
- Gewünschtes Verhalten wird mittels „Münzen“ (tokens)
verstärkt, die dann gegen etwas anderes eingetauscht
werden können
Stimuluskontrolle:
- Kontrolle der Situationen (= Hinweisreize), in denen ein
unerwünschtes Verhalten verstärkt wird
- z.B. Verhindern von Fressanfällen dadurch, dass keine
kalorienreichen Lebensmittel gekauft werden
Biofeedback:
- Rückmeldung körperlicher Zustände, um „autonome“
Reaktionen (z.B. EEG-Wellen, Herzfrequenz,
Muskelspannung) kontrollierbar zu machen