vl6_intrumentelles_kond_II

Professur für
Allgemeine Psychologie
Vorlesung im WS 2013/14
Lernen und Gedächtnis
Instrumentelles Konditionieren II
Prof. Dr. Thomas Goschke
1
Überblick











2
Thorndikes Gesetz des Effekts
Skinners Forschung zum operanten Konditionieren
Shaping und Verhaltenssequenzen
Was wird beim O.K. gelernt?
Arten von Verstärkern
Verstärkungspläne
Wahlverhalten
Kontiguität und Kontingenz
Bestrafung, Flucht- und Vermeidungstraining
Generalisierung und Diskrimination
Neurobiologische Grundlagen des instrumentellen Konditionierens
Wahlverhalten
3
Zwei konkurrierende Verstärkungspläne
?
VI 60“
•
Verstärkt wird die erste
Reaktion, die nach einem
Intervall von durchschnittlich
60 Sekunden gezeigt wird
4
VI 120“
•
Verstärkt wird die erste
Reaktion, die nach einem
Intervall von durchschnittlich
120 Sekunden gezeigt wird
Herrnsteins (1961) Matching Law

Optimales Verhalten = Maximierung des erhaltenen Futters
66%
33%
V1
R1
___________
R1+R2
5
=
___________
V1+V2
Gluck, Mercado and Myers
Copyright © 2008 by Worth Publishers
Verhaltensökonomie
6
Gluck, Mercado and Myers
Copyright © 2008 by Worth Publishers
Premack-Prinzip: Verhalten als Verstärker
David Premack (1959, 1961)

Tierexperiment
Ratten erhielten freien Zugang zu Trinkwasser und einem Hamsterrad
• Ratten verbrachten anfangs ca. 5 x soviel Zeit mit Rennen als mit Trinken
• Danach erhielten Ratten nur Zugang zum Laufrad, wenn sie bestimmte
Wassermenge getrunken hatten
• Ratten tranken doppelt so lange wie zu Beginn
 Ratten lernten zu trinken, um Zugang zum Laufrad zu erhalten
•

Ein Verhalten (Rennen) wurde zum Verstärker für ein anderes Verhalten
(Trinken)

Analoge Effekte bei Menschen
•

Kinder, die Flipper spielen oder Süßigkeiten essen konnten
Die Möglichkeit ein bevorzugtes Verhalten auszuführen kann ein weniger
präferiertes Verhalten verstärken
Kontiguität vs. Kontingenz:
Instrumentelles Konditionieren als kausale Inferenz
8
Zeitliche Kontiguität

9
Dickinson et al. (1992): Kürzere Abstand zwischen Verhalten und Verstärkung 
effektivere Konditionierung
Effekt des Zeitabstands
zwischen Reaktion und Konsequenz

Schlinger & Blakey (1994):
•
Ratten erhielten nach Drücken eines Hebels nach 0, 4 oder 10 Sekunden
Futter als Belohnung
© 2008 by Worth Publishers
Bedeutung der Kontingenz

Hammon et al. (1980): Ratten wurden trainiert, Hebel zu drücken, um Futter zu erhalten
Reaktion innerhalb 1 s
 5% Chance eines
Verstärkers
11
5% Chance eines
Verstärkers nach 1 s
egal ob Reaktion
oder nicht
Wie Phase 1
Wie Phase 2
Instrumentelles Konditionieren als kausale Inferenz

Wasserman (1990)

Vpn konnten Taste drücken

Dies führte manchmal dazu, dass
Licht aufleuchtete

UV1: p(Licht|Taste)
= 0; 0.25; 0.5; 0.75; 1.0

UV2: p(Licht|keine Taste)
= 0; 0.25; 0.5; 0.75; 1.0

 vgl. Rescorla-Wagner-Theorie
des klassischen Konditionierens!
12
(O = Outcome; R = Response)
Nicht-kontingente Verstärkung und „abergläubisches“ Verhalten

Skinner (1948):
•
•

Skinners Erklärung:
•
•
•
14
Tauben erhielten alle 15 s Futterkörner unabhängig vom Verhalten
Einige Tiere entwickelten bizarre „Rituale“ (z.B. mehrmals gegen den Uhrzeigersinn
drehen) und verhielten sich, als ob sie „glaubten“, durch ihr Verhalten die
Verstärkergabe kontrollieren zu können
Verstärker erhöht die Wahrscheinlichkeit jedes Verhaltens, dass zufällig unmittelbar vor
der Verstärkergabe gezeigt wurde
 höhere Wahrscheinlichkeit, dass dieses Verhalten (zufälligerweise) erneut vor der
Verstärkergabe auftritt  weitere Verstärkung
 Im Lauf der Zeit können sich komplexe Verhaltensmuster bilden (analog zu
natürlicher Selektion)
Allgemeinere Schlussfolgerungen

Organismen lernen kausale Regularitäten, die es ermöglichen, Effekte des eigenen
Verhalten zu antizipieren

Dies ermöglicht es Organismen, sich adaptiv („rational“) zu verhalten = Verhalten
zu selektieren, dass positive Konsequenzen hat und negative Konsequenzen zu
vermeiden

Adaptives Verhalten muss nicht auf bewusster Überlegung oder Einsicht in die
relevanten Kontingenzen beruhen

Relativ einfache assoziative Mechanismen können Verhalten erzeugen, das
rational und zielgerichtet erscheint
17
Abbau unerwünschter Verhaltensweisen:
Löschung und Bestrafung
18
Arten von Verstärkern
Verhaltenskonsequenz
Angenehm
19
Unangenehm
Reiz erscheint
nach Reaktion
Positive Verstärkung
(Belohnung)
Bestrafung 1. Art
Reiz verschwindet
nach Reaktion
Bestrafung 2. Art
Negative Verstärkung
(Flucht / Vermeidung)
Abbau unerwünschter Verhaltensweisen


3 Möglichkeiten:
•
Löschung: die das Verhalten aufrechterhaltenden Verstärker entziehen
•
Bestrafung des unerwünschten Verhaltens
•
Alternativverhalten aufbauen, das das unerwünschte Verhalten ablöst
Bestrafung kann sehr wirksam sein:
•
20
Eine einzige Lernerfahrung kann Verhalten eliminieren (z.B. heiße
Herdplatte)
Löschung

Die das unerwünschte Verhalten aufrecht erhaltenden Bedingungen
(Verstärker) identifizieren

Entzug eben dieser Verstärker

Beispiel:
•
•

Löschung ist besonders effektiv, wenn gleichzeitig Alternativverhalten
positiv verstärkt wird
•
21
Kind erhält durch ständiges Stören mehr Aufmerksamkeit
Entzug der Aufmerksamkeit  Löschung des Verhaltens
Bsp.: Kind erhält Aufmerksamkeit für erwünschtes Verhalten
Bestrafung und Zeitverzögerung

Mittlere Anzahl von Reaktionen

1.Phase: Ratten wurden trainiert, Hebel zu drücken, um Futter zu
bekommen
2. Phase: Auf 50% der Hebeldrücke folgt ein Elektroschock sofort, nach 7,5
oder nach 30 Sekunden (Kontrollgruppe: gleiche viele Schocks, aber kein
Zusammenhang zu den Reaktionen)
80
70
60
50
40
30
20
10
0
0
7,5
30
Kontrolle
22
Camp, Raymond & Curch, 1967
Intensität der Bestrafung
Unterdrückung eines Verhaltens (Hebeldrücken) steigt mit Intensität der
Bestrafung
Ausmaß der Unterdrückung
(%)

0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0
0,15
0,5
2
Stärke des Schocks (mA)
23
Church, 1969
Bestrafung und Verhaltensalternativen

Unterdrückung eines Verhaltens durch
Bestrafung ist effektiver, wenn alternative
Verhaltensmöglichkeiten bestehen
(insbesondere, wenn diese belohnt
werden)
Anzrin & Holz (1966):
• Phase 1: Tauben lernten, auf einen
Schalter zu picken, um Futter zu erhalten
• Phase 2: Auf Picken folgte Schock
– Gruppe A: Taube konnte auf anderen
Schalter picken
– Gruppe B: Nur ein Schalter
•
24
Ergebnis: Tauben in Gruppe A zeigten
stärkere Unterdrückung des Pickens auf
den ursprünglichen Schalter
300
Reaktionen / min.

250
Alternative
Reaktion
verfügbar
200
150
keine
alternative
Reaktion
verfügbar
100
50
0
0
20
40
60
80
Bestrafungsintensität (V)
Kontingenz der Bestrafung

Vortraining: Ratten lernten, Hebel zu drücken, um Futter zu bekommen

Phase 1:
• Experimentalgruppe: Elektroschocks unabhängig vom Verhalten
• Kontrollgruppe: Nur Belohnung

Phase 2: Beide Gruppen erhalten nur Belohnung

Phase 3: Beide Gruppen erhalten reaktionskontingente Schocks
25
Church, 1969
Reaktionsrate (% der Baseline)
Kontingenz der Bestrafung
140
Nicht
Erneutes
Kontingente Training Kontingente
Bestrafung (Belohnung) Bestrafung
120
100
80
60
40
Kontrollgruppe
(keine Schocks in
Phase 1)
Exp.-gruppe
Schocks in Phase 1)
20
0
Bestrafung war nur wirksam, wenn sie kontingent auf das Verhalten folgt
Erfahrung nicht-kontingenter Bestrafung verhinderte späteres Lernen einer
reaktions-kontingenten Bestrafung ( vgl. erlernte Hilflosigkeit)
26
Konsequenzen nicht-kontingenter Bestrafung:
Erlernte Hilflosigkeit

Exp. von Overmier & Seligman (1967) / Maier & Seligman (1976) mit Hunden

Phase 1:
•
Experimentgruppe: Glockenton -> unausweichlicher Stromstoß
•
Kontrollgruppe: Konnten Schock durch eigenes Verhalten vermeiden
Phase 2:
•
Beide Gruppen Vermeidungstraining
•
Stromstoss wurde durch Ton angekündigt; Tiere konnten Stromstoss durch Sprung über
eine Barriere vermeiden
Ergebnis:
•
Kontrolltiere lernten schnell die Vermeidungsreaktion
•
Tiere der Experimentalgruppe zeigten Anzeichen von Furcht, aber machten keine
Anstalten, dem Schock zu entfliehen
„Erlernte Hilflosigkeit“:
•
Erfahrung, dass Bestrafung nicht durch eigenes Verhalten beeinflusst werden kann,
erschwert Erwerb und/oder Ausführung instrumenteller Reaktionen
•
Tiere lernen, dass eigenes Verhalten keinen Effekt hat



27
Konsequenzen nicht-kontingenter Bestrafung:
Erlernte Hilflosigkeit
28
Erlernte Hilflosigkeit bei Menschen
Hiroto (1974)

Phase 1: unangenehme laute Geräusche
•
Gruppe 1: Töne weder vermeidbar noch kontrollierbar
•
Kontrollgruppe 2: Töne nicht vermeidbar; per Knopfdruck abstellbar
•
Kontrollgruppe 3: keine Vorbehandlung

Phase 2: Ton wurde durch 5 sec. Lichtsignal angekündigt und konnte durch Schieberegler
abgestellt werden

A.V: Latenzzeit für das Lernen Abstell-Reaktion

Ergebnis: Gruppe 1 lernte langsamer als Gruppe 2 und 3

Interpretation:
•
Erfahrung der Unkontrollierbarkeit hat drei Effekte:
(1) motivationales Defizit (keine Anstrengung zu fliehen)
(2) kognitives Defizit (verzögertes Lernen)
(3) emotionales Defizit (Apathie, „Depression“)
30
Negative Folgen von Bestrafung

Bestrafung kann unter bestimmten Bedingungen zur Unterdrückung von jeglichem Verhalten
führen

Diskriminative Hinweisreize, die Bestrafung signalisieren, können zu Täuschungsverhalten
führen (Bsp.: Radarfalle)

Bestrafung unterdrückt oft lediglich Verhalten (Performanz); aber hohe Wahrscheinlichkeit,
dass unerwünschtes Verhalten wieder gezeigt wird, sobald keine Bestrafung mehr erwartet
wird

Beziehung zwischen Bestrafendem und Bestraftem leidet (kann Ärger und Aggression
erzeugen)

Falsche Vorbildfunktion: Kinder könnten lernen, dass Bestrafung (Aggression) ein
angemessenes Mittel zur Konfliktlösung ist

Wenn Bestrafung, sollte stets erwünschtes Alternativverhalten ermöglicht und verstärkt
werden
33
Negative Verstärkung:
Flucht- und Vermeidungsverhalten
36
Negative Verstärkung


Verhalten kann verstärkt / aufrechterhalten werden, weil es Bestrafung vermeidet
Exp. von Solomon & Wynne (1953): Hunde in Käfig mit Stahlgitter als Boden
10 Sek.
Licht aus
Licht aus
37
Elektroschock
Hund springt
über Barriere
in sicheren Käfig
Hund springt
über Barriere
in sicheren Käfig
Negative Verstärkung und Vermeidungsverhalten

Vermeidungsverhalten kann sehr löschungsresistent sein

Auch wenn kein Schock mehr gegeben wird, springen Hunde weiter (mitunter 200
mal) über Barriere (Solomon, Kamin, & Wynne, 1953)

Latenz des Vermeidungsverhaltens nimmt sogar weiter ab

Warum wird Vermeidungsverhalten nicht gelöscht wird, obwohl die Tiere nie
mehr einen Schock erhalten?

Vermeidungsverhalten verhindert, dass die Hunde lernen, dass die Kontingenz
zwischen Licht und Schock gar nicht mehr besteht

Erklärt die Aufrechterhaltung von Vermeidungsverhalten bei phobischen Ängsten
(z.B. soziale Angst; Flugangst)
38
Negative Verstärkung und Vermeidungsverhalten
Wie kann Vermeidungsverhalten gelöscht werden?
(1) Bestrafung (z.B. Schock) wird erteilt, obwohl das Vermeidungsverhalten gezeigt
wird  Organismus lernt, dass es keine Kontingenz zwischen Verhalten und
Bestrafung gibt
(2) Verhindern, dass das Vermeidungsverhalten ausgeführt wird

Baum (1969):
• Vermeidungstraining (Ton  Schock  Flucht)
• Danach wurden Ratten daran gehindert, beim Ton in sicheren Teil des Käfigs
zu flüchten
• Nach kurzer Zeit hatten Ratten gelernt, dass es keine Kontingenz mehr
zwischen Ton und Schock gab

Klinische Anwendung: Reizkonfrontationstherapie bei Phobien
39
Zwei-Prozess-Theorie des Vermeidungslernens
(Mowrer, 1947)
1. Phase: Klassisches Konditionieren
CS (Ton)
US (Schock)
UR (Angst)
CR (Angst)
CS (Ton)
2. Phase: Operantes Konditionieren
Angstreaktion ist mit wahrnehmbaren inneren Reizen verbunden (z.B.
Veränderung der Herzrate, Atmung, etc.)
Vermeidungsreaktion
40
Ton aus
Angstreduktion
(Vermeidungsreaktion wird als Fluchtreaktion (vor dem angstauslösenden
CS) uminterpretiert)
Probleme der Zweifaktorentheorie I
Phase 1: Klassisches Konditionieren

Wenn konditionierte Angst die Vermeidungsreaktion auslöst (bzw. Angstreduktion der
Verstärker ist), sollte Angst umso größer sein, je stärker Vermeidungsreaktion ist
Aber:

Vermeidungsverhalten tritt auch auf, wenn CS keine Anzeichen von Furcht mehr auslöst
(z.B. Kamin, Brimer, & Black, 1963)

Nachdem Vermeidungsreaktion gelernt wurde, verschwinden oft Anzeichen von Angst (z.B.
Solomon & Wynne, 1953)
Alternative Erklärung:

Gelernt wird nicht CS-CR-Assoziation (Ton-Furcht), sondern CS-US-Assoziation (Ton-Schock)
CS (Ton)  Antizipation des US (Schock)
Vermeidungsreaktion wird durch Antizipation des US ausgelöst
41
Probleme der Zweifaktorentheorie II
Phase 2: Operantes Konditionieren
Zweifaktorentheorie: Elimination des CS und damit verbundene Angstreduktion soll
verstärkend sein
Aber: Elimination des CS ist gar nicht nötig für Vermeidungslernen
Kamin (1956): Tiere lernen Vermeidungsverhalten, auch wenn der CS nach dem
Vermeidungsverhalten andauerte
43
Probleme der Zweifaktorentheorie II
Sidmans (1953, 1966): Freie operante Vermeidung
•
•
•
•
Schock kommt ohne Warnung (kein äußerer CS)
Tier kann Schock für 30 Sekunden aufschieben, indem es Hebel drückt
Tiere lernen, Schock komplett zu vermeiden, indem sie Hebel rechtzeitig drücken
Vermeidungsverhalten obwohl kein CS durch das Verhalten eliminiert wird
(a) Wenn das Individuum nicht
reagiert, wird alle 5 Sekunden
ein Schock verabreicht.
a)
Elektroschocks
Reaktionen
Zeit (Sekunden)
0
20
40
60
30 Sekunden
(b) Jede Reaktion verschiebt den
nächsten Schock um 30
Sekunden.
b)
80
100
30 Sekunden
Elektroschocks
Reaktionen
44
Zeit (Sekunden)
0
20
40
60
80
100
Schlussfolgerung und alternative kognitive Erklärung

Lebewesen lernen Kontingenzen zwischen CS, Reaktionen und
Verhaltenskonsequenzen

Dies ermöglicht es, negative Konsequenzen zu antizipieren und Verhalten
auszuwählen, dass negative Konsequenzen vermeidet
45
Generalisierung und Diskrimination
47
Das Generalisierung-Diskriminations-Dilemma
48
Das Generalisierung-Diskriminations-Dilemma

Grundproblem für Lebewesen beim klassischen Konditionieren:
•
•
•

Grundproblem beim instrumentellen Konditionieren:
•
49
Wann signalisiert ein neuer (dem CS mehr oder weniger ähnlicher) Reiz den
gleichen US?
Generalisierung: Auslösung der konditionierten Reaktion durch ähnliche Reize
Diskrimination: Auslösung der Reaktion nur durch ganz bestimmte Reize
Wann führt die gleiche Reaktion auf einen neuen (mehr oder weniger
ähnlichen) diskriminativen Hinweisreiz zur gleichen Konsequenz und wann
nicht?
Reizgeneralisierung
Guttman & Kalish (1956)

•
•
•
50
Trainierten Tauben, auf eine beleuchtete Taste zu picken
Picken auf Licht einer bestimmten Wellenlänge wurde mit Futter belohnt
Transferphase: Licht anderer Wellenlänge beleuchtet
Generalisierung als Suche nach ähnlichen Effekten

52
Generalisierung spiegelt die erwartete Wahrscheinlichkeit, dass die
gleiche Reaktion auf zwei verschiedene Reize die gleiche Konsequenz
haben wird
Differenzielles Training und Generalisierungsgradienten
(Jenkins & Harrison 1960)
Nichtdifferenzielles Training
• Tauben wurden nach variablem Intervallplan
trainiert, auf eine beleuchtete Scheibe zu
picken, wenn ein 1000-Hz Ton dargeboten
wurde
• Löschungsphase: Töne anderer Frequenz oder
kein Ton
Differenzielles Training
• Durchgänge mit beleuchteter Scheibe und
1000 Hz Ton  Verstärkung
• Durchgänge mit beleuchteter Scheibe ohne
Ton  Keine Verstärkung
50
No. 8
No. 52
40
No. 54
No. 58
30
No. 60
No. 70
30
No. 71
No. 72
20
20
S
10
10
SD
0
300
450
670
1000
1500
2250
Frequenz in Zyklen pro Sekunde
3500
No
Tone
0
300
450
670
1000
1500
2250
Frequenz in Zyklen pro Sekunde
3500
No
Tone
55
© Mazur (2006). Pearson Studium.
Reizdiskrimination
(Jenkins & Harrison, 1962)


Standardtraining: 1000-Hz-Ton  auf Taste picken  Verstärkung
Diskriminationstraining: Zusätzlich 950-Hz-Ton  keine Verstärkung
56
Gluck, Mercado and Myers (2008)
Copyright © 2008 by Worth Publishers
Negative Generalisierungsgradienten
(Terrace 1972)
• Tauben wurden trainiert, bei Licht auf Scheibe zu picken, erhielten
aber keine Verstärkung, wenn das Licht gelb-rot (570nm) war
• Testphase: Licht unterschiedlicher Wellenlänge
58
Spences (1937) Theorie des Diskriminationslernens


Verstärkung in Anwesenheit eines Reizes  positiver Generalisierungsgradient
Keine Verstärkung
 negative Generalisierungsgradient
Peak
Shift

59
Verhalten ist Kombination positiver
und negativer G.-Gradienten
Relationales Lernen

Anwendung von Spence‘s Theorie auf Auswahl zwischen zwei Reizen:
• Training, zwischen Reizen von 160 und 256 cm2 zu diskriminieren
• Test: Tier bekommt Wahl zwischen Reizen von 256 und 409 cm2
Tiere wählen meist Reiz von 409 cm2
Steht in Einklang mit Spence-Theorie
Alternative Erklärung: Tiere lernen die
Relation zwischen den Reizen („Wähle
den größeren Reiz“)
60
Relationales Lernen
(Lawrence & DeRivera, 1954)


Karten in unterschiedlichen Grauschattierungen (1= weiß; 7 = schwarz)
Ratten wurden trainiert,
•
sich nach rechts zu drehen, wenn obere Karte heller war
•
sich nach links zu drehen, wenn obere Karte dunkler war
Ratten drehten sich
nach links
61
Ratten drehten sich
nach rechts
 Tiere haben die relationale Information gelernt!
Biologische Einschränkungen beim
operanten Konditionieren
66
Biologische Einschränkungen beim operanten Konditionieren:
Instinktive Drift


Breland & Breland (1961):
• Trainierten Waschbären, Holzmünzen aufzuheben und in einen Behälter zu
legen
• Tiere zeigten bald nicht verstärkte Verhaltensweisen (z.B. „Waschen“ der
Münzen)  machte Trainingsprogramm zunichte
• Entspricht artspezifischem Verhalten bei der Nahrungssuche
• Analoge Ergebnisse für andere Spezies
Lerneffizienz wird durch angeborene Lernbereitschaften moduliert
67
Breland, K. & Breland, M. (1961) The misbehavior of organisms. American Psychologist, 16, 681-684.
Biologische Einschränkungen beim operanten Konditionieren:
Reizmerkmale

Organismen sind biologisch prädisponiert, bestimmte Reize als
bedeutsam zu betrachten und andere zu ignorieren

Foree & LoLordo (1973):
•
•
•

In natürlicher Umwelt
•
•
72
Trainierten Tauben mit kombiniertem CS (Licht + Ton)
Verstärker = Futter  Verhalten wurde durch Licht kontrolliert
Verstärker = Schock  Verhalten wurde durch Ton kontrolliert
ist visuelle Information oft kritisch, um Futter zu identifizieren
Signalisieren Geräusche oft Gefahr
Biologische Einschränkungen beim operanten Konditionieren:
Reaktionsmerkmale

Shettleworth (1975):

Hungrige Hamster zeigten bestimmtes Verhalten
häufiger
• Auf Hinterbeine aufrichten
• An Wänden kratzen
• Graben

Andere Verhaltensweisen traten nicht häufiger
auf
• Waschen; kratzen; markieren

Im Experiment wurden Hamster dann für
unterschiedliche Verhaltensweisen mit Futter
belohnt
 Tiere sind biologisch prädisponiert, bestimmte
Reaktions-Verstärker Assoziationen besser zu lernen
als andere
73
Mittlere Zeit, die die verstärkte Reaktion innerhalb
120 sek ausgeführt wurde