allgemeine ii - FSR Psychologie

ALLGEMEINE II
Lernen:
Lernpsychologie = Oberbegriff f. sämtliche Begriffe der Verhaltensänderung,
allg. Mechanismus der Verhaltensveränderung, Verh. Aufgrund von Erfahrungen, R auf
Stimulus. Suche nach Gesetzmäßigkeiten.
(NICHT Psychologie des Lernens)
Strukturalismus (19. Jh): mentale Prozesse unterliegen Naturgesetzen  Methode:
Introspektion (inneres Auge)  Kritik am Intr.: mangelnde Replizierbarkeit, nicht objektiv,
nicht beobachtbar
Klassischer S-R-Behaviorismus: (Watson) Psychologie als Naturwissenschaft, beobachtbare
Umweltbedingungen (S) und beobachtbares Verhalten (R) als Forschungsgegenstand der Psy.
S-R-Modell der Reflexologie, welcher S produziert welche R?  Vorhersage und Kontrolle
von Verhalten. Nur beobachten!
Blackbox: innerorganismische (O-) Variable, mentale Ereignisse gibt es nicht, sind irrelevant
(= Ontologie)
 Operationale Definition mentaler /innerorganismischer Konstrukte: =
Verhaltensdispositionen und –tendenzen. D(p) ↔ S(p) ↔V(p) Bedingte Situation 
bedingtes Verhalten.
Neobehaviorismus (S-O-R-Behav.): Nutzung mentaler Konstukte in Theoriebildung, O-Var.
als Vermittler zwischen S und R (hypothetische Konstrukte). O-Variablen durch theoretische
Zusammenhänge mit beobachtbaren Daten in Verbindung gesetzt (nicht mehr reine black
box). Fokus aber immer noch auf S-R!
z.B. Stunden ohne Wasser, trockenes Futter, Salzinjektion – Durst – Häufigkeit des
Hebeldrucks, konsumierte Wasssermenge, tolerierte Chininmenge
Radikaler Behaviorismus (Verhaltensanalyse) , Skinner. Selektion von Verhalten auf der
Basis der Adaptivität für Überleben und Fortpflanzung (environment selects behavior), bzgl. :
Phylogenese: Die Art (nicht Individuum!) mit den besten adaptiven organism. Strukturen wird
selektiert
Soziogenese:Kultur, kulturelle Wissensbestände, Tradition (gemeinschaftliche
Verhaltensregeln)
Ontogenese: Entwicklung Individuum durch Lernen, Erfahrung Anpassung  verändertes
Verhalten
Hauptfokus der Lernpsychologie auf Verhaltensregelmäßigkeiten und ihrer Veränderung
(nicht einzelnes Verhalten). Regeln der Veränderung, allgemeine (biologische) Gesetze
Tierversuche:
pro: keine placebo, demand-effekte, Kontrolle von Vorerfahrungen, billiger, weniger eth.
Bedenken, geringe komplexität, prinzipielle Ähnlichkeit zum Menschen
Contra: eingeschränktes Verhaltensrepertoire, qualitative Unterschiede zum Menschen, eth.
Bedenken
Determinismus: Kausalgesetze ≠ Determinismus, weil Konsequenzen treten nur mit best.
Wahrscheinlichkeit ein, aber nicht zwingend notwendig (wenn nichts dazwischen kommt).
Verhaltenserklärung durch Gründe (freie Entscheidungen des Individuums), nicht Ursachen.
Außerdem sind Randbedingungen nicht alle in Kausalgesetzen enthalten, sind ja auch
unendlich viele. Tendenzen.
Habituation
1
Einfachste Form des Lernens (single event learning). Durch wiederholte folgenlose
Präsentation eines Reizes nimmt die Reaktion auf diesen in ihrer Intensität ab.
(Z.B. verstecken s. Ratten immer kürzer bei nach Katze riechendem Halsband)
Ist stimulus-spezifisch, nicht die R als solche habituiert. nicht bloße Erschöpfung 
Reinstatement der R bei Wechsel/Kombination des Stimulus
(Groves &Thompson 1970, Ratten auf Ton habituiert  Licht+Ton => Startle Reaktion
Licht weg Hab. Setzt wieder an. War neuer Kontext!( Siehe Auch Coolidge Effekt)
Funktion: Vermeidet Ablenkung durch R auf irrelevante Reize, spart Ressourcen. Habituation
=Selektionsvorteil. Adaptive Verhaltenssteuerung.
Generalisierung Diskriminationsleistung bei Säuglingen via Habituation nachgewiesen (=
Dishabituationsparadigma) Auf Rechteck vor Stab habituiert  1) Stab ohne Rechteck =>
keine OR (= Generalisierung). 2) zwei kurze Stäbe in Abstand von der Höhe des Rechtecks
=> OR!! Stab schon als Ganzes erkannt.
Spontaneous Recovery: Abschwächung der HABITUATION durch Zeit/Pause, danach
erstmal wieder starke OR – aber: (Lern-)Ersparniseffekte bim erneuten Erwerb
Intensitäts- und Sequenzeffekte, Vorhersagbarkeit:
 Je intensiver Reiz desto schwächer Habituation.
 Wenn Reiz vorhersagbar (z.B. kontinuierlich lauter) verläuft Habituation als wenn es
ein Reiz (konstant)wäre
 Davis & Wagner (1996)
Gruppe 1: konstant 100 dB Töne
Gruppe 2: konstant 120 dB Töne
Gruppe 3: kontinuierlich ansteigende Töne 83-118 dB
Gruppe 4: zufällig, Intensitäten aus Gruppe 3
 alle habituierten, Gruppe 2 am schlechtesten (= Intensitätseffekt)
Dann 120 dB Ton: Gruppe 2 und 4 stärkste startle-Reaktion weil unerwartet, Gruppe 1 und 3
keine OR weil erwartet.
Kurz- vs. Langfristige Habituation: Dissoziationseffekte in Abh. vom ISI. Kurzes ISI:
schnelle Habituation, langes ISI: langsame Hab.  Davis 1970:
2-Sek-ISI, 16-Sek.-ISI. Auf beide Töne zunächst startle-R. Im Habituationstraining
habituierte die 2-Sek-Gruppe schneller. Nach 1 Min Pause war Startle-R. der 2-Sek. Gruppe
wieder auf Ausgangsniveau (= nur kurzfristige Habituation weil keine Assoziation mit
Kontext =Dissoziation). Keine Startle-R. der 16-Sek. Gruppe nach Pause, Habituierung auf
Niveau der 2-Sek-Grupper vor Pause (=langfristige Habituation), S erwartet wegen KontextStimulus-Assoziation.
Überraschungstheorie (Wagner 1976)
 Wenn Ereignis im KZG gespeichert = nicht überraschend => schnelle Hab. aber kein
Lernen von Assoziationen
 Nicht im KZG gespeichert = überraschend => keine/kaum Hab. aber Lernen von
neuen Assoziationen
Erklärt Ergebnisse von Davis 1970:
Kurzes ISI: S permanent im KZG => schnelle aber kurzfristige Hab.  kein Lernen weil
keine Ass. zw. S und Kontext gebildet
2
Langes ISI: S bleibt nicht im KZG => langsame Hab. aber langfristig, Lernen weil
Stimulus-Kontext-Ass. gebildet (hat also gelernt, deshalb keine OR nach Pause)
(Ass. kann auch gelöscht werden  Wagner 1976)
Opponent-Process Theorie (Solomon & Corbit, 1974)
Typischer Verlauf emotionaler Reaktionen:
Reiz Höhepunkt, Abflachen auf konstantes Niveau, Umkippen nach Aussetzen des
Reizes, Rückkehr zur Ausgangslage.
Erklärung der O-P durch Addition zweier entgegen gesetzter Komponenten:
a-Prozess: Setzt unmittelbar ein, Verharren am Maximum, abruptes Ende
b-Prozess: setzt verzögert ein, Verharren am (dem a-Pr. gegensätzlichen) Maximum,
allmähliches Ausklingen.
Abflachen der ER wegen Einsetzen von b, wenn a aufhört nur noch b = Umkippen
(Nachreaktion)
Wiederholte Stimulation: a-Prozess immer gleich, b-Prozess früher, höheres Maximum,
Verlängerung der Rückkehr zur Null-Linie => manifeste Reaktion deutlich geringer
Funktion b-Prozess: Vermeidung affektiver Eskalation
(Church et al., 1966: R von Hunden auf Serien von Schocks  Initiationsreaktion lässt
nach, Nachreaktion stärker. Epstein 1967: Veränderung der ER bei Fallschirmspringern,
Nachreaktion= Erleichterung = stärker. Toleranz und Entzugserscheinungen bei
Drogensucht  bald keine positiven Emotionen mehr, fast permanente negative
Nachreaktion, will die abschwächen => mehr Drogen)
Klassische Konditionierung:
(Ivan Pavlov)
Teil 1
US: Reiz, der von sich aus bestimmte R reflexartig auslöst, bedarf keiner weiteren
Bedingung = unkonditioniert (Futter)
UR: R, die reflexartig von einem US ausgelöst wird (Speichelfluss)
CS: erst neutral, US gepaart mit NS (und US löst UR aus) NS wird zum konditionierten
Stimulus, löst dann CR aus wenn alleine präsentiert
CR: durch CS ausgelöste konditionierte R, vorher nur OR aber wenn NS=>CS wird die
OR auf den NS zur CR
(Futter Speichel. Glocke Futter Speichel. Glocke Speichel)
CER: Em. R, die aufgrund eines CS ausgelöst wird, der normalerweise keine solche R
bewirken würde. Schneller Aufbau, langes Zeitintervall. (normalerweise andersrum, z.B.
Lidschluss)
= conditioned suppression: Unterbrechung Handlung, wenn CS neg. Emotion ankündigt
(Z.b. stoppen Ratten Hebeldrücken, wenn Ton Schock ankündigt. Auch
Geschmacksaversion mit Geschmack = CS und Vermeidung = CR)
Physiologisch messbar mit elektrogalvanischer Hautreaktion (SCR = skin conductance
response)
Quantifizierung:
Unterdrückungsindex(Q): Verhaltenshäufigkeit unter CS / (V.-häufigkeit unter CS) + (V.häufigkeit unter –‚ CS)
Verhaltensrate (Hebeldrücken) nach CS verglichen mit V.-rate vor(ohne) CS  .0
=perfekte Unterdrückung, .5 = keine Unterdrückung
3
Stärke der Konditionierung: Salienz des CS, Stärke des US, Kontiguität und Kontingenz
(Vorhersagewert des CS) + biolog. preparedness
Verzögerte K: CS lange vor US  CR erst kurz vor US. Tier lernt, dass erst später
reagieren muss
Simultane K: CS+US gleichzeitig=> keine CR, kein Lernen
Zeitliche K: Zeitlicher Abstand zwischen zwei US als CS, Vorhersagbarkeit d. Zeit
Rückwärtsgerichtete K: CS nach US => kein Lernen
Akquisition: asymptotisch, Geschwindigkeit/Steile des Anstiegs abh. von siehe oben
(Stärke der K)
Extinktion: Nur Verstrichen von Zeit reicht nicht, Löschung nur wenn CS ohne US.
Dauert länger als Akquisition, zu Beginn einer neuen Sitzung Spontanerholung.
Komplette Extinktion schwer/unmöglich
Disinhibition: Inhibition der Inhibition durch das Auftreten eines neuen Reizes zusammen
mit dem CS. Neuer Kontext während Löschung => CR wieder da. Wettkampf zwischen
inhibitorischer und exzitatorischer Konditionierung
Ersparniseffekt: schneller Wiedererwerb der CR nach Löschung
CS- : CS- verkündet Ausbleiben des US schwächt oder verhindert CR = konditionierter
Inhibitor („Gegenreiz“)
Methoden/ Conditioned Inhibition Training:
CS+ und CS- => kein US. CS+=>US
Kombination des CS- mit einem bereits etablierten CS+ während der Extinktion.
Verzögerte u. rückwärtsgerichtete Konditionierung.
CS- kann nur etabliert werden, wenn vorher gelernt, dass er Ausbleiben eines US ankündigt.
Nachweis eines kond. Inhibitors:
 Summations test: CS1 US, CS1/CS-  nichts, CS2US, Test: CS2/CS-  CR??
CR auf CS2 sollte sich durch CS- reduzieren/eliminieren
 Retardation: Wie lange dauert es, bis aus CS- CS+ wird? Sollte länger dauern weil erst
inhibitorische Eigenschaften. Verzögerter Aufbau einer CR auf den CS-, wenn dieser
anschließend zum CS+ wird.
(CS1US, CS1/CS- nichts, CS-  USwie schnell CR?? Zur Kontrolle den gleichen
Reiz, der in Training CS- war als gleich als CS+ etablieren)
 Resistance to reinforcement: CS- verhindert Erwerb einer CR auf neuen CS+
CS- etablieren, dann CS-/CS2  US  CR? Sollte verzögert sein. Zur Kontrolle die
gleichen aber noch unkonditionierten Reize gemeinsam präsesntieren CR schneller.
Generalisierung und Diskrimination:
Konditionierung wird auf ähnliche Reize übertragen, Generalisierung der CR auf dem CS
ähnliche Stimuli.
Bei Worten bestimmt Alter Generalisierung: kleine Kinder generalisieren phonetisch,
ältere semantisch (Razran 1949)
Diskrimination bei simultaner Kond. mit CS+ und CS- : Erst Generalisierung (CR steigt
bei beiden an), wenn Systematik erkannt CR auf CS- schwächt sich ab, auf CS+ stiegt
weiter = Diskrimination
Generalisierungsgradient: CR auf dem CS ähnliche Stimuli stärker, je ähnlicher dem CS
(z.B. CS= 1200 Hz-Ton, auf ähnlich frequente Töne auch CR, aber schwächer/stärker je
nach Ähnlichkeit. Bei exzitatorischem Reiz steiler Gradient, inhibitorisch: flacher
Gradient (und natürlich umgekehrt: je unähnlicher dem CS- desto stärker die Reaktion,
Unterschiede aber insgesamt schwächer als bei exzit.)
4
Experimentelle Neurose: Konflikt zwischen inhibitorischer und exzit. Konditionierung,
Vorhersage unmöglich z.B. Hunde erst Standarddiskriminations-Experiment: Kreis als
CS+, Ellipse als CS- , dann diese immer ähnlicher bis gleich Hunde verzweifen,
neurotisch. Selbst wenn wieder unterschiedliche Reize können nicht mehr diskriminierten
=exp. Neurose
Phobien: (z.B. Watson & Raynor, 1920, Vater erschrickt Kind) US irgendwann mal (in
Vergangenheit) mit CS gekoppelt  CR=Furcht=>Angst (auch wenn kein US mehr) =>
Generalisierung. Eigentliche Ursache oft unbekannt.
Vermeidungsverhalten verhindert Löschung! Aktive Löschung ist aber erforderlich.
Außerdem schnell Spontanerholung.
Desensibilisierung (Wolpe, 1958): Aufstellung einer Angst-Hierarchie +
Entpsannungstechniken  Löschung jeder Stufe. Weniger Stress + nachhaltiger als
Flooding. Entspannung = CS- zur Inhibition von Angst (nicht gleichzeitig möglich!)
Aversive Gegenkonditionierung; bei Sucht den „Versuchungsreiz“ mit aversiven
Konsequenzen koppeln Vermeidungsverhalten. (Reicht dann oft schon der Geruch vom
ehemaligen Versuchungsreiz um Vermeidung hervorzurufen = Generalisierung).
Globale Nahrungsmittelaversion bei Chemo: Übelkeit durch Therapie wird automatisch
mit vorher genossenen Speisen assoziiert (kond. Geschmacksaversion)  Einführung
eines markanten Geschmacks-CS vor Therapie verhindert Transfer auf normale Speisen
Konditionierung des Immunsystems: Kopplung eines CS (Geschmacksreiz) mit
Immunmedikament unter neutralen Umstände  CS reicht auch in Stressreaktion, um
Immunreaktion (CR) hervorzurufen
Teil 2
Kontingenz: Bedingte Wahrscheinlichkeit des Auftretens des US. Vorhersagewert eines
CS, Differenz zwischen P (US/CS) und (-) P (US/--‚CS) (=Basisrate) entscheidet über
Lernen/Kond. (exzit., inhib., oder gar nicht)
Zeitl. Kontinuität + Häufigkeit des CS => CR
Anschaulich mit 4-Felder-Tafel/ Kontingenztafel
P (US/CS) = a/ a+c
P (US/--‚CS) = a/b+d
P(--,US/CS) = c/a+c
P (--,US/--,CS) = c/ b+d
Mit a= wie oft US nach CS, b=Basisrate= US ohne CS, c=CS ohne US, d= nichts passiert
Dissoziation von Kontingenz und Häufigkeit der Kopplung: (Rescorla 1968)
Basisrate bei gleichbleibender P (US/CS) manipulieren (z.B. bei P=0,2 Basisrate unter/über
diesem Niveau)  Grad der Konditionierung immer am höchsten, wenn Basisrate <P(US/CS)
(Unabhängig davon, wie hoch die absolute Häufigkeit der Kopplung – obwohl häufigere
Kopplung auch einen etwas höheren Grad der Kond. bringt)
=> Gelernt wird aus der Differenz zwischen Paarung und nicht Paarung, nicht aus der bloßen
Häufigkeit der Paarungen.
5
Überschattung: Keine Konditionierung eines (weniger salienten) CS1 in Gegenwart eines
salienteren CS2 (CS1 alleine ist perfekter Stimulus, aber wenn in Kombi mit salienterem CS
 lässt nach)
Übererwartung: Kombi zweier bereits etablierter (unabh. voneinander aufgebauter) CS mit
gleichem (einem!) US führt zur Abschwächung der CR auf die einzelnen Stimuli. (Wenn
CER etabliert kann sich auch Angst reduzieren)
Blockierung: Kopplung eines neuen CS2 mit bereits etabliertem CS1 bei gleichem US =>
keine Konditionierung auf CS2 (weil CS1 schon Signalwert für US hat, blockiert jeden
anderen Reiz, der vorhersagen will)
- Kamin1968: Ton Schock. Licht Ton Schock. Licht ?? : Keine Konditonierung!
KG: Licht Schock => Konditionierung! (liegt also nicht an mangelnder Salienz von L)
-gilt auch für Extinktion: bereits auf CS1 gelernte CR wird nicht gelöscht, wenn CS1 in
Extinktionsphase zus. mit CS2 (=CS-) präsentiert wird, weil Tier das Ausbleiben des US mit
CS2 assoziiert  CR auf CS1 bleibt.
Ton Schock. LichtTon „nichts“ : Löschung??
Test: Ton => CR !!! (Angst)  Licht blockiert Löschung
(Stärke einer CR nicht proportional zur Häufigk. zeitl. benachbarter CS-US-Paarungen, siehe:
Übererwartung (CR auf einzelne schwach trotz häufiger Paarung)
Kontingenz nicht Häufigkeit
Blockierung (keine CR auf CS2 trotz Paarung)
Salienz des CS entscheidend
Asymptote weil Überraschungseffekt entscheidend (nur Kontiguität reicht nicht)
US-Stärke begrenzt Lerneffekt)
Rescorla-Wagner-Modell: ∆ Vcsi = Ssci * ( A- ∑ Vcs) = Delta-Regel
∆ Vcsi : was wir erklären wollen
Scsi * (A-∑cs) : wie wir das erklären
∆ = Differenz, Veränderung (in V) – bei einem Durchgang
V= Erwartung eines US gegeben CS – entspricht der Stärke der CR nach einem CS
S = Salienz des CSi(0 ≤ S ≤ 1) S=0 unbemerkt, kein Lernen. S=1 maximale Salienz,
perfektes Lernen (Kond. nach nur einem Durchgang), wenn mehr als ein Reiz ist Summe ihrer
Salienzen maximal 1
 S beeinflusst Lernen/Konditionierbarkeit
A = Stärke des US (0 ≤ A, d.h. keine „negativen“ US) – je mehr passiert desto höher A. Wenn
US nicht präsentiert => A=0. A zeigt Intensität nicht Qualität des US!
∑ Vcs = Summe der US-Erwartungen aller gegebenen CS  additives Modell (Licht 10
Futterpillen, Ton 5 Futterpillen => ∑ Vcs = 15)
i = bezieht sich auf jeden einzelnen CS
(A-∑ Vcs) = eigentliches Lernen, Summer der Erwartungen verglichen mit dem, was
tatsächlich passiert => ist Differenz! (was gelernt werden kann)
Mit Rescorla-Wagner:
Akquisition: Asymptotischer Lernzuwachs mit Konvergenz auf A. V passt sich an die Stärke
A des US an – Schnelligkeit abhängig von Salienz.
Z.B. CS = Licht. Futter= US A = 100, S= 0,2
1) V für Licht noch 0. => ∆Vcsi = 0,2 * (100-0) = 20 (Große Diskrepanz zwischen V und A!)
Im ersten Durchgang nicht gleich alles gelernt weil S immer ≤ 1
2) ∆ csi = 0,2 * (100-20) = 16
3) 0,2 * (100-36) = 12,8 => V nun 48,8
6
 Erwartung für US immer höher  Diff. immer kleiner V irgendwann (nahezu) Wert von
A, siehe Asymptote.
Extinktion: Asymptotische Abnahme mit Konvergenz auf Null, Lerneffekt mit umgekehrten
Vorzeichen, wird nach unten reguliert,weil bei Nicht-Präsentation des US ist A= 0
Z.B. Licht = CS mit Vcs = 90, S= 0,2, A= 0
1) ∆ csi = 0,2 * (0-90) = - 18 D.h. nach 1. Durchgang Erwartung für US um 18 Einheiten
reduziert
2) ∆ csi = 0,2 (0-72) = - 14, 4  Erwartung um weitere 14.4 reduziert auf 57,6
Etc. bis irgendwann Null angenähert. Am Anfang Abnahme der Erw. am größten.
Überschattung: bei multiplen CS: Asymptote Vcsi = (Scsi/ ∑cs) * A (Gesamtsalienz verteilt
auf alle CS  jeder CS hat dann einen seiner Salienz entsprechenden Vorhersagewert. Jeder
CS bekommt so viel ab wie Gesamtsalienzanteil)
Wenn 2 Reize gleichzeitig präsentiert  US  jeder Reiz bekommt einen Teil der Erwartung
Z.B. CS1= Ton mit S1 = 0,2 und CS2 = Licht mit S2= 0,5. Futter = A = 100
1) für CS1: ∆ V(T) = 0,2 * (100-0) = 20
Für CS2: ∆ V(L) = 0,5 * (100-0) = 50
D.h. die Gesamterwartung ist nach dem ersten Durchgang schon um 70 Einheiten
verändert/gestiegen, somit Restdiskrepanz von 100-70 = 30
2) V(T) = 0,2 * (100-70) = 6
V (L) = 0,5 * (100-70) = 15
D.h. Gesamterwartung um weitere 21 auf insgesamt 91 gestiegen. = Diskrepanz nur noch 9.
Licht viel höheren Signalwert, bekommt mehr vom „Kuchen der Erwartung“ / vom
Gesamtsalienzanteil weil höhere Salienz (US-Erwartung auf CS1 nur um 20% angepasst )
D.h. T wird von L überschattet und nie so stark konditioniert wie L.
Übererwartung: Gesamterwartung zweier (o. mehr) separat etablierte CS auf den gleichen US
ist Summe der Einzelerwartungen (A1+A2)  aber nur ein US folgt (ein A passiert) 
negative Differenz (A – (A+A))  Erwartung je nach Salienz der Einzelstimuli auf einzelne
CS verteilt D.h. V für Einzelstimuli wird gesenkt, bis Summe wieder dem entspricht, was
passiert ( neg. Diff. immer geringer, nähert sich A an)
Z.B. Licht= CS1 mit V1=100. Ton = CS2 mit V2=100 US=Futter mit A=100
1) ∆V = S* (100-(100+100) )= -100*S
Salienzaufteilung je nach Stärke des CS, siehe Überschattung. Wenn gleich salient:
Einzelerwartungen auf Hälfte ihrer Ausgansstärke (also je V von 50) reduziert, bis ihre
Summe wieder 100 entspricht (also V1=50, V2=50  ∑V = 100).
Blockierung: Keine Abweichung von der Erwartung.
CS1 kündigt bereits zuverlässig US an, hat schon vollständige Erwartung auf den US
erworben, ein CS2 kann den gleichen US nicht mehr ankündigen, da nichts mehr gelernt wird/
der CS1 schon perfekt konditioniert wurde/ Zusammenhang schon erworben. Bleibt auf dem
Niveau, wo vorher schon war, keine zu lernende Diskrepanz zw. Erwartung und Ergebnis (A ∑Vcs).
Z.B. Licht ist CS1 mit V1 = 100
Futter ist US mit A = 100
Ton ist CS2 mit V2 = 0
S1 und S2 beide 0,3
Für CS2: ∆V = 0,3 * (100-100) = 0
Wenn L und T kombiniert = A-∑Vcs = 100- (100 +0) = 0  Keine Differenz, kein Lernen
weil A = ∑ Vcs
7
Konditionierte Inhibiiton:
Auf die Kombi von einem bereits etabliertem CS+ (Licht) und einem neuen Stimulus ( CS), z.B. Ton, folgt kein US (Futter).
D.h. vorher wurde die Erwartung auf A schon voll gelernt, z.B. V(L)=90
Nun folgt aber kein US, daher A=0. Licht und Ton seien gleich salient, z.B. 0,2
Wenn beide gleichzeitig präsentiert werden, hat Ton noch keine Erwartung, also V(T) ist noch
Null
1) ∆V = 0,2 * (0-90) = -18
D.h. nach diesem Durchgang wird die Erwartung auf jeden CS um -18 Einheiten
reduziert: V(L) ist jetzt 72. V(T) ist dann -18
Tier muss im Laufe der Durchgänge lernen, dass die Kombination von L und T nichts
vorhersagt. Da der Effekt Null ist und beide Stimuli gleich salient  beide Erwartungen
immer um gleich viele Einheiten nach unten korrigiert, bis der CS- so negativ ist, wie der
CS+ positiv ist, sprich, wenn die Erwartungswerte der beiden sich aufheben, im Beispiel
bei V(L) = 45 und V(T) = - 45 => ∑Vcsi = 0. Die Erwartung auf den Ton ist negativ  ist
Inhibitor geworden.
Kontingenz:
Kontingenzeffekte betrachten Einfluss von Basisrate, Basisrate = US ohne CS.
R-W-Modell kann nur dann Veränderung vorhersagen, wenn CS auch anwesend, sonst kann
nicht gelernt werden.
 Kontingenz trotzdem erklärbar mit R-W?
Kontext.
Konditionierung findet immer in best. Kontext K statt. Wenn CS nicht anwesend aber
trotzdem US, assoziiert Tier dies auf Kontext  K selbst ist guter, besserer Prädiktor für US
als CS => K blockiert Konditionierung auf CS trotz häufiger CS-US-Paarungen bei nicht
vorhandener Kontingenz (= gleich hohe oder höhere Basisrate= K als bester Prädiktor)
CS+K
US
--,US
--,CS+K
80
80
20
20
Zusätzliche Evidenz der Blockierung durch K liefert Einführung eines noch stärkeren CS2,
der die Blockierung durch K aufhebt, indem er K-US-Ass. blockiert. CS2 kündigt immer US
an  ist der beste Prädiktor, sagt US besser vorher als K
CS1+K CS2+K
80
80
--, CS+K
0
20
20
US
--,US
0
CS2 hat Kontingenz von 1 (80:0) und ist damit besserer Prädiktor als K (160:40)
Der CS1 kann sich nun wieder durchsetzen (wird nie gemeinsam mit CS2 präsentiert), da USK-Ass. durch CS2 blockiert.
8
Salienz und Konditionierbarkeit:
Salienz auch lernabhängig/erwartungsabhängig
Latente Inhibition: CS-Präexposition ohne US reduziert späteren Erwerb von CS-US
Assoziation
 aber kein Inhibitionsphänomen: lediglich Salienz nimmt ab/ durch Prä-Exp. CS generell in
Konditionierbarkeit reduziert (Reiz bekommt in folgenden Lerndurchgängen weniger ab)
Gruppe1 : Ton alleine , Licht Schock, Test: Ton+Licht nichts
Gruppe2: keine Präexp., Licht Schock, Test: Ton+Licht nichts
 Wenn Ton wirklich Inhibitor durch Präexp. müsste während Löschung Lernen in Gruppe 1
schneller gehen, ist aber nicht der Fall! Gruppe 2 lernt schneller, d.h. Präexposition reduziert
Salienz / Konditionierbarkeit generell (in exzitatorischen und inhibitorischen Durchgängen),
aber ist keine latente Inhibition! (= Salienzreduktionstheorie)
S-S oder S-R-Assoziation?
 Sensorische Präkonditionierung:
Z.B. 1. Ton + Licht (ohne US)
2. Licht  Futter  CR
Test: Ton CR??
Ergebnis: in Testphase CR gezeigt! Spricht für S-S-Assoziation, weil Ton nie mit Futter
gezeigt wurde, muss über Ton-Licht-Assoziation gelernt worden sein.
 Konditionierung zweiter Ordnung;
1. Licht FutterCR
2. Ton Licht (ohne US)
Bald löst Ton CR aus, könnte also S-S sein (Licht mit Futter assoziiert) oder auch S-R
(Licht mit Speichelfluss assoziiert)
3. Licht Schock CR
Test: Ton welche CR??
Ergebnis: CR in Testphase ist Sabbern! D.h. es muss eine Ton-Speichelfluss-Assoziation
gelernt worden sein in Phase 2, so dass US-Änderung auf Licht nicht die Reaktion auf
Ton ändert. Ton ja nur mit Speichelfluss assoziiert, nie mit Schock.
 US-Abwertung:
1. CS US CR
2. US ab-/umgewertet, z.B. so viel Futter geben, dass Tier satt und kein Speichelfluss
mehr
Test: CS ??
Ergebnis: keine CR mehr ausgelöst – spricht für S-S –Assoziation/ CS-US-Verbindung,
weil US umgewertet wurde/ CR hat sich verändert, bleibt aus wegen Veränderung der
Bedeutung des US. (Wäre es S-R, dürfte CR bei Umwertung des US nicht anders ausfallen)
 D.h. es gibt S-S und S-R !
CS-US-Modulation, Occasion-Setting:
Ein Reiz (OS) zeigt an, ob CS-US-Verbindung gilt oder nicht /OS verhindert oder moduliert.
Auf OS alleine keine Reaktion – nur in Kombi mit anderen CS!
Rescorla (1987):
Exzitatorisch:
CS1= grünes Licht, OS(FAC) = helles Licht, US= Futter
Grünes Licht nichts
Grünes Licht + OS  Futter  CR
9
Test: OS alleine: keine CR! Tier kann OS also nicht einfach mit CS assoziiert haben, sondern
OS ist „Schalter“, der anzeigt, dass Ass. zwischen CS und US/UR gilt („nichts“ + „nichts“
löst CR aus!) = multiplikatives Schaltermodell (hier kein additives Modell mehr wie bei R-W)
Inhibitorisch:
CS= grünes Licht, US= Futter, OS (INH) = Geräusch
1)Auf CS wurde CR etabliert
2) CS+ OS  nichts
CS- ist hier also OS, der anzeigt; Assoziation zwischen CS und US gilt nicht mehr!
Laut R-W hat nach inhibitorischer Kond. der CS+ eine Erwartung von + ½ A, der CS- eine
Erwartung von – ½ A
Testen R-W gegen occasion-setting:
Nach kond. Inh. CS- wieder umkonditioniert, bis CS- = CS+ und alleine wieder CR auslöst
Test: CS + OS (bzw. ehemals CS-, nun CS+)  ??
Ergebnis: nichts passiert! Keine CR.
Laut R-W- müsste CR sogar doppelt so stark sein weil Kombination additiv wirkt. 
Ergebnis spricht für OS-Modell, weil OS lediglich anzeigt, ob Verbindung zwischen CS und
US besteht oder nicht. Die Umkonditionierung in einen CS- hat dabei keinen Einfluss auf die
Schalterfunktion des OS.
Kompensatorische CRs:
CR Gegenteil von UR, eine der UR entgegen gesetzte Reaktion
Bei Wiederholung nimmt Stärke der UR ab, weil CR sie kompensiert
Kontextspezifische Drogentoleranz (Siegel 1975)
z.B. abnehmender analgetischer Effekt von Morphium
Ratten Morphium injiziert Schmerzempfindlichkeit sinkt
Nach einigen Durchgängen: Schmerzempfindlichkeit nimmt wieder zu
Spritze = CS, kündigt Morphium an
CR = kompensatorisch = Gegenreaktion des Körpers auf Gift, Organismus will Wirkung des
Morphiums (=Gift) ausgleichen  also der UR entgegengesetzt = b-Prozess
Bei Wiederholung b-Prozess immer stärker => bald stärker als Wirkung des Morphiums,
daher erhöhte Empfindlichkeit. Wenn Salz statt Morphin löst CS (Spritze) ebenfalls
kompensatorische CR aus, da aber gar kein Morphium injiziert => Schmerzempfindlichkeit
noch höher.
Paradoxer Drogentod: Aufhebung des Toleranzeffekts in verändertem Kontext.
Kontext triggert bald Gegenreaktion, um Wirkung der Droge/Gift auszugleichen.
In unvertrautem Kontext wirkt der US (Droge) viel stärker, weil neuer Kontext kein CS
keinen Gegenprozess ausgelöst  normalerweise nicht tödliche Menge wirkt tödlich
Conditioned Opponent Theory (Schull, 1979)
Erweiterung der Gegenprozesstheorie. B-Prozess wird konditioniert, kann schon durch CS
ausgelöst werden, auch wenn gar kein US und damit kein a-Prozess anwesend. B-Prozess ist
CR die durch mehrere Stiumuli ausgelöst werden kann. (a-Prozesse nicht veränderbar und
nicht konditionierbar)
Sometimes Opponent Process Theory (Wagner, 1981)
Bei monophasischer UR: CR=UR
Bei biphasischer UR (b-Prozess): CR= -UR
Äquipotenz: Beliebigkeit des CS, nur syst. Kopplung nötig damit Konditionierung, kein
sinnfälliger Zus.hang zum US nötig. Nimmt an, dass der gleiche CS in jeder Sit. gut bzw.
schlecht ist
10
-Salienzunterschiede bedingen unterschiedl. starke Konditionierung
Interaktion von CS und US (Garcia & Koelling, 1966)
a)Tauben bekommen Geschmacks-Wasser und Licht-Geräusch-Wasser.
Beide mit Gift versetzt meiden danach Geschmacks-Wasser
Interpretation: Ratten haben Übelkeit mit Gift assoziiert
b) wieder Geschmacks-Wasser und Licht-Geräusch-Wasser
Boden unter Strom
Danasch trinken Ratten nicht mehr aus Licht-Geräusch-Wasser  haben Schock offenbar mit
akustisch-visuellen Reizen assoziiert (aber nicht mit Geschmack)
 Damit Salienzerklärung ausgeschlossen, weil R in beiden Bedingungen dann gleich sein
müsste  widerspricht Äquipotenzannahme = CS-US-Interaktion!
 je nach CS ist CR leichter/schwerer zu konditionieren, d.h. erst wenn Beziehung zw. US
und CS bekannt ist, kann Aussage über die Stärke der Konditionierung gemacht werden!
(gleiche Stimuli in unterschiedlichen Kontexten unterschiedlich starke CR)
Spezies-spezifische Muster der Konditionierbarkeit:
Z.B. Wilcoxon et al. (1971): Blaues vs. säuerliches Wasser: Ratten assoziieren Übelkeit mit
Geschmack, Wachteln assoziieren Übelkeit mit Farbe (= Aussehen)
Preparedness: (Seligman 1970)
Vorbereitete und gegenläufig vorbereitete Assoziationen bei verschiedenen Spezies
(Z.B. hohe Löschungsresistenz der Angstkonditionierung auf Spinnen und Schlangen).
Verschiedene Spezies sind unterschiedlich stark auf bestimmte Reize vorbereitet, biologisch
festgelegte Verhaltensweisen  speziestypische Assoziationen lassen sich leichter lernen als
andere  widerspricht Äquipotenz
Evaluative Konditionierung:
Valenzübertragung vom US auf den CS
CS= neutraler Reiz , US= valenter Reiz
Nach mehrfacher gemeinsamer Präsentation verändert sich Bewertung des CS in Richtung der
Valenz des US
Valenz des CS= AV, Valenz des US = UV
(Bei KK war CR AV, scheint hier nebensächlich. Bei KK hatte CS Signalwert für US, war
also UV) CS nicht Signal, sondern Quali des CS selbst wird verändert.
Z.B.Razran (1938): plolitische Slogans im Rahmen einer freien Mahlzeit vs. in stinkendem R.
Wort-Wort-Paarungen: pos. Worte mit neutralen (z.B. Länder, nicht-Worte)
Bild-Bild-Paarungen: symph/unsymph. Gesichter mit neutralen
Zeichen-Wort-Paarungen: Griechische Buchstaben mit valenten Worten
Figur-Wort-Paarungen
Aromen-Geschmack/Geruch: Teesorte (durch Riechen) hinterher anders bewertet, je nachdem
ob in aufgegossener Form mit Zucker oder Tween getrunken
Nicht beschränkt auf Valenzbereich:
 Geschlechtskategorisierung bei Babies (Meersmans et al., 2005)
Babyfotos männlich/weiblich eingestuft, je nachdem ob vorher mit eindeutig männl/weibl.
Präsentiert
 Geschmacks/Geschmacks-Paarung
11
Funktionscharakteristika:
Löschungsresistenz: Valenz des CS bleibt erhalten, auch wenn CS ohne US (geht nicht um
Signalwert des CS)
Kontiguität statt Kontingenz: EC tritt auch ohne Kontingenz auf, Basisrate irrelevant,
rückwärtsgerichtete und simultane Konditionierung möglich  nur zeitliche Nähe + Paarung
an sich wichtig!
Bewusstheit des CS-US-Zusammenhangs:
- demand - Effekte? Werden eliminiert durch Zusatzaufgabe (8-stellige Ziffer) oder
Maskierung des US (CS direkt präsentiert)  trotzdem oder sogar stärkere EC-Effekte
- Aufforderung, auf CS-US-Zusammenhang zu achten verhindert/eliminiert EC 
spricht gegen demand-Effekte
- kein Zusammenhang zwischen Bewusstheit und EC (egal ob VP sich erinnert oder
nicht)
- Indirekte Messung durch affektives Priming bestätigt Valenzübertragung (Diaz et al.,
2005): CS als Prime, valentes Wort als target  indirekte Messung der CS-Valenz
nach EC: VP soll Valenz des target zuordnen kürzere RT bei valenzkongurenten
Stimuli- Paarungen.
D.h. (automatische) Bewertung wird an Verhalten der VP (Reaktionszeitparadigma)
abgelesen, ohne dass dieses Bezug nimmt zu dem, was eigentlich gemessen wird. (VP
kann unmöglich sozial erwünscht reagieren, Bewertung aber dennoch messbar).
Theoretische Erklärungsansätze für EC:
Rekategorisierung des CS (Davey, 1984; Field & Davey 1997):
Paarung mit US macht die US-ähnlichen Merkmale des CS salient, ähnliche Merkmale
werden hervorgehoben. EC v.a. bei ähnlichen CS/US Paarungen
 dem widerspricht randomisierte CS-US-Zuweisung und cross-modales EC
(verschiedene Modalitäten von CS und US, Essen/Slogans)
Referentielles Lernen bei EC (vs. Erwartungs-, Signallernen bei KK) Bayens et al., 1992:
CS aktiviert automatisch kognitive Repräsentation des US – aber ohne Erwartung des US.
Referenz= Bezug  durch gemeinsame Paarung mit US entwickelt CS Bezug zu diesem
 werden fortan kognitiv gemeinsam repräsentiert. Wird auch hervorgerufen, wenn CS
alleine.
= Missattribution von Eigenschaften des US auf den CS (z.B. Klauen, oder Ratte „liebt“
Klick-Geräusch des Futterautomaten weil Referenz zu Futter)
Einstellung und Vorurteile: (Erwerb automatischer Bewertungn von Gruppen /Personen)
„Spreading attitude effect“: Indirekter Erwerb von Einstellungen ohne direkten Kontakt
zum Einstellungsobjekt durch sensorische Präkonditionierung.
Walther (2002): Neutrale Gesichter: N1-N5
Valente Gesichter: US
Vorphase: EG: N1 mit N2
KG: N1 mit N3
Konditionierungsphase: N2 mit US (für EG und KG)  N2 übernimmt Valenz von US
Test: welche Valenz hat N1?
Ergebnis: in EG EC-Effekte! (obwohl N1 nie mit US gepaart wurde) erworbene Valenz
des N2 muss sich wg. Sens. Präkond. auf N1 übertragen haben = spreading attitude effect
12
(In KG keine Valenzänderung von N1 da N3 nie mit US gekoppelt und hier keine Ass.
zwischen N1 und N2).
Eigengruppenfavorisierung, impliziter Selbstwert:
„Name letter“ Effekt (Nuttin) Manche Buchstaben bewerten wir positiver, z.B. Initialien =
Valenzübertragung (wg. Eigengruppe)
„mere ownership"Effekt; (Feys, 1995) Gegenstände, die mir gehören, bewerte ich deshalb
positiver.
Z.B. Wert einschätzen von geschenkt bekommenen Gegenständen vs. Wert von Dingen,
die VP nicht gehören. Ergebnis: Wert höher eingestuft, wenn VP der Gegenstand gehörte
(wg. Implizitem Selbstwert, Übertragung von eigener Valenz = Selbstwert auf neutrale
Objekte)
Wechselseitige Beeinflussung von Äußerungen und Personen
Persuasion/Überredung Person = US, Botschaft = CS
Wenn Person sympathisch ist positiv valent übertägt sich auf Botschaft/Inhalt eher
akzeptiert.
Glaubwürdigkeit von Aussagen/Einschätzungen als Funktion der Sympathie der Quelle
der Info.
Moderation durch Verfügbarkeit kognitiver Ressourcen: wenn groß VP denkt mehr
nach, geringere Beeinflussung durch US. Wenn gering umgekehrt (VPn verlassen sich auf
heuristische cues weil leichter zugänglich als Inhalt der Botschaft)
Äußerungen von Botschaften:“kill-the-messenger“ Effekt : Botschaft = US, Person = CS
Bei Überbringung einer negativen/positiven Nachricht wird Überbringer hinterher
entsprechend negativer/positiver bewertet.
Werbepsychologie:
 Kopplung von Markenprodukt mit positivem US (z.B. junge, attraktive Person,
entspannte Atmosphäre, Natur) verändert dauerhaft die Einstellung ggü. diesem
Produkt weil gemeinsame Repräsentation
 Bessere Effekte unter Ablenkung. Werbung nebenbei/ in Infofenster (kogn.
Ressourcen von etwas anderem beansprucht)
 Indirekte Einsellugnsänderung wenn sich Valenz des US im Nachhinein ändert/wenn
sich die Bewertung der mit dem Einstellungsobjekt assoziierten Person ändert/USUmwertung
 „brand extension“: Wenn Marke in einem Bereich schon positives Image hat überträgt
sich wahrscheinlich auch auf neue/andere Produkte derselben Marke (Markenname
erweitert auf anderen Produktbereich)
Operante Konditionierung I
Operantes vs. respondentes Verhalten:
Respondent: reflexartig, Reflex auf Reiz, unwillkürlich, automatisch, stimulusbezogen,
erfahrungsbedingte Veränderung in reizbezogenem Verhalten, Reiz-R-Verbinung, starr, fix
(weil automatisch), Reflex als AV
Operantes Verhalten: willkürlich, spontan, konsequenzbezogen, an Folgen orientiert, in
Zukunft gerichtet/bezogen, erfahrungsbedingte Veränderung in operantem Verhalten, Person
kann entscheiden, wie reagieren will, experimentell, um etw. hervorzurufen, instrumentell,
zwar durch Sit. ausgelöst aber nicht festgelegt, flexibel, es wird auf frühere Erfahrungen
zurückgegriffen, diese nehmen Einfluss auf Willkürverhalten.
13
-
oft beide zusammen gezeigt.
Annahme der Lernpsychologie:
Einmal gemachte Erfahrungen verändern Verhaltensweisen in der Zukunft
Es gibt Willkürverhalten, aber ist nicht mit Mitteln der KK erklärbar
Nur weil kein offensichtlicher Stimulus da ist, der vor dem Verhalten auftritt, heißt nicht,
dass das Verhalten nicht vorhersagbar ist
Gesetz des Effekts: Nicht Verhalten per se sondern Verh. in best. Sit. wird
wahrscheinlicher.
Wenn Reaktion/Verh. in einer Sit. von positiven Konsequenzen gefolgt/begleitet 
stärker mit dieser Sit. verbunden  bei erneutem Auftreten des Stimulus/ der Situation
mit erhöhter W.keit erneut gezeigt.
Wenn Verh. in Sit. von negativer Konsequenz gefolgt das nächste Mal in der gleichen
Sit. mit geringerer W.keit gezeigt weil neg. Folgen die Ass. mit der Situation schwächen.
Je stärker pos/neg Konsequenzen desto intensiver ist Stärkung/Schwächung der
Assoziation. D.h. es gibt Rückkopplung über die Konsequenzen und damit eine Ass.
zwischen Sit. und Verstärker.
Stop-Action-Prinzip: Stärkung einer Verhaltensweise (Körperhaltung, Muskelbewegung)
im Moment des Eintretens der positiven Konsequenz Kontiguitätsprinzip. Dadurch
erhöhte W.keit für erneutes Auftreten.
Evidenz: Guthrie & Horton (1964). Katze in Käfig mit Hebel in Mitte, der einzige
Möglichkeit zum Rauskommen war (und gleichzeitig Fotoapparat  Bewegung aus dem
unmittelbaren Moment aufzeichnen)
Ergebnis: Verh. erst unterschiedlich, dann immer homogener. Bewegungsabfolge zum
Hebeldrücken intraindividuell immer auf die gleiche Weise, aber von Katze zu Katze
verschieden.
Erklärung: zufälliges Verh. vom wurde durch Öffnen der Tür verstärkt  Katze zeigt
genau dieses dann immer wieder
Abergläubisches Verhalten: (Skinner 1948) Verhalten tritt regelmäßig auf auch wenn
nicht- kontingent verstärkt.
Tauben bekommen unregelmäßig Futter, müssen nichts dafür tun, aber bald bestimmte,
regelmäßige Verh.weise etabliert nach stop-action-Prinzip. Aber Taube glaubt nur, dass
etwas für Futter tun müsste das Verh. wird verstärkt, das zufällig gerade vor Futter
gezeigt wird, aber Futter kommt auch so = Aberglaube.
Probleme des mechanischen Lernprinzips:
Hohe Variabilität im gelernten Verhalten
 (Muenzinger 1928) Meerschweinchen Salatblat: hohe Variabilität im Verhalten
 Funktionale Generalisierung. Lashley 1924: Meerschweinchen nehmen sofort den
richtigen, gelernten Weg im Labyrinth, wenn dieses unter Wasser gesetzt wird –
kein neues Lernen, obwohl andere Bewegungen
 Es werden Verhaltenseffekte, nicht einfache Muskelbewegungen gelernt (auf
höherer Ebene). Flexibilität und Anpassung
Shaping: Aufbau gewünschter Verhaltensweisen durch Verstärkung von Rudimenten, die in
richtige Richtung gehen.  Sukzessive Erhöhung des Kriteriums für Verstärkung
14
= Erweiterung des Anwendungsbereichs der OK für Verhaltenssteuerung, weil Verhalten
aufgebaut werden kann, das spontan nicht auftritt, kein Reflex ist
z.B. in Therapie bei Kindern mit Sprachschwierigkeiten: beginnt mit Formung der Lippen von
außen  nachmachen verstärkt. Dann müssen von alleine machen verstärkt etc.
Prompting: Z.B. erst manuelle Unterstützung einer Verh.weise, die sonst nicht auftreten
würde, „erzwingen“  Verstärkung wahrscheinlicher, dass Verh. von selbst gezeigt wird.
= Stimulus, der Wkeit des Auftretens von gewünschtem Verh. während
Verhaltensmodifikation erhöht, wird im weiteren Verlauf des Trainings immer seltener
eingesetzt.
Fading: Ausschleichen der Unterstützung, des Prompt. Wenn gewünschte R spontan auftritt,
Unterstützung reduziert – eliminiert. = Verfahren zur Verhaltensmodifikation, bei dem ein
Prompt langsam verringert wird  dem Lernenden wird beigebracht, Verh. ohne Prompt zu
produzieren.
Freie operante Konditionierung: Geht nicht um Einzelverh. sondern allgemeine Verh.rate.
von Skinner entwickelt. Operante R kann jederzeit und beliebig wiederholt auftreten, solange
Individuum in Versuchskammer (Skinnerbox). Analyse wiederholbarer R erlaubt
kontinuierliche Analyse von Verhaltensintensitäten. Reaktionsrate = AV, geht also nicht um
Einzelverhalten sondern um Intensität. Sonst war Reaktionslatenz AV.
Ist einfacher als herkömmliche Methoden, spart Ressourcen, Tiere können wiederholt
reagieren, ohne dass VL einschreiten muss (im Gegensatz zu kompliziertem Problemkäfig,
Labyrinth o.ä. ). Durch Kontext kann Tier spontan nur die gewünschte R zeigen, außerdem
kann R jederzeit auftreten.
 allgemeine Gesetze können abgeleitet werden
Beispiel: Rate des Pickens auf Scheibe von Tauben, die Fläche zeichnet Rate auf
Kontingenzeffekte: auch bei OK ausschlaggebend (analog zur KK), auch bei nicht-perfekter
Verstärkung. Bedingte Wahrscheinlichkeit wird verglichen mit Basisrate. Liegt nicht an
absoluter Häufigkeit des Verstärkers
 Untersuchung zur Trennung von Effekten der Verstärkungshäufigkeit und
Kontingenzeffekte (Hammond, 1980)
1) R in 5% der Fälle von Verstärker gefolgt (Basisrate noch geringer)
2) R ebenfalls in nur 5% von Verstärker gefolgt, aber Verstärkerhäufigkeit generell
hochgefahren (= Erhöhung Basisrate)  Kontingenz 0
Ergebnis: Auch bei nicht-perfekter Verstärkung (1) wird gelernt, solange die Basisrate
geringer ist. In Bd. 2 (Verstärkerhäufigkeit höher) Reaktionsniveau fast 0, nichts gelernt.
Folgt dann wieder Bd. 1 R sofort wieder gezeigt weil Vorhersage für Verstärkung. Schon
auf geringe Kontingenzänderungen sensibel.
Dreifachkontingenz: Kontingenz von Reaktion, Verstärker und diskriminativem
Hinweisreiz. Diskriminative Hinweisreize (D) : erlauben Analyse der Stimuluskontrolle
weil op. Verh. (Verstärkung) stark situationsbedingt. D zeigt an, ob Sit. da ist, in der sich
best. Verhalten lohnt. D steuern Verh., legen aber nicht fest.
P (Verstärker/ Reaktion, D) > P (Verstärker/ keine Reaktion, D)
Verlauf: Probleme der Verhaltenskontrolle im Alltag v.a. bei Extinktion weil unbekannte
Verstärker und mangelnde Kontrolle über Verstärker – selbst wenn in einem Kontext (zu
Hause) gelöscht kann in anderem (Schule, peers) wieder auftreten.
Konditionierte Verstärkung:
 Primäre Verstärker: biologisch angelegte Wirkung
15


Sekundäre Verstärker: zunächst neutrale Reize, die Verstärkungsfunktion
erwerben. Funktioniert durch systematische Kopplung mit primärem Verstärker,
weil der sek. dann den prim. ankündigt. Z.B. Hebel vor Futter. Wirkt indirekt.
Muss immer mal wieder von primärem gefolgt werden.
Generalisierte Verstärker: Sekundäre Verstärker, die viele verschiedene primäre
ankündigen (z.B. Geld), auch token reinforcement: haben Überbrückungsfunktion,
halten Motivation aufrecht.  Effizienter als primäre V weil damit verschiedene,
mehrere primäre Verstärker hergestellt werden können, oft kann VP sogar wählen,
selber kontrollieren, gegen was token eintauscht (z.B. für Geld: Haus, Kleidung,
Wärme etc.)
Funktion externer Reize:



Feedback: zeigt an, ob VP auf dem richtigen Weg. Sit. als Feedback/Rückmeldung, ob
Verhalten richtig oder falsch. Z.B. Linie blind (?) besser zeichnen wenn weiß, dass
richtig.
Steuerungsfunktion: z.B. Diskriminative Hinweisreize, zeigen an welches Verhalten
in einer Sit. angebracht/ erfolgversprechend ist, Verstärkungsmöglichkeiten werden
signalisiert. Z.B. zeigt Licht-an, dass Wahrscheinlichkeit für Futter gegeben, Licht
aus: kein Futter
Überbrückungsfunktion: Motivation aufrecht halten, z.B. durch token. Wenn Verh.
länger gezeigt werden muss, bevor Verstärker kommt. Z.B. Münzen erarbeiten beim
Affen  erhält gewünschtes Verh. (Hebel) so lange aufrecht, bis tokens eintauschen
kann.
Effiziente Konditionierung:
Aufbau komplexer Verhaltenssequenzen = Verhaltensketten
Chaining: Verkettung von Verh.weisen mithilfe konditionierter Verstärkung. Stimuli
vermitteln zwischen den einzelnen Verhaltenselementen. Reize haben dabei Doppelfunktion:
Steuerungsfunktion als diskr. Hinweisreize für nächsten Schritt und konditionierte
Verstärkung des vorangegangenen Verhaltens (selbstverstärkender Charakter). Primärer
Verstärker erst nach letztem Verh.element.
Z.B. Ratten in Parcours mit Leiter, Kette etc.
Rückwärtsverkettung: Am Ende, mit Aufgabe vor primärem Verstärker, beginnen und dann
immer einen Schritt zurücksetzen, so dass Zwischensituation ein sekundärer Verstärker und
gleichzeitig Hinweisreiz wird. Z.B. 1.bringt Ratte bei: Hebel drücken Futter. 2. setzt Ratte
weiter weg, wenn Hebel sieht: Hebel wirkt als Hinweisreiz und Verstärker für notwendiges
Verhalten davor, z.B. Leiter hochklettern.
Vorwärtsverkettung: Am Anfang beginnen, Verstärker müssen eingebaut werden, weil Sit./
Stimulus noch keine Verstärkerqualität, muss Verh. oft erstmal „erzwingen“. Wenn ein
Schritt gelernt: eingebaute Verstärker wieder ausbauen. Schritt 1 gelernt  nächster
hinzugefügen etc.
Rückwärts effizienter weil schneller funktioniert, schneller gelernt wird, keine Verstärker
ein – und dann wieder ausgebaut werden müssen und erste Reaktionen nicht erzwungen
werden müssen. Außerdem keine Hinweisreize bei vorwärts.
Allgemeingültigkeit der OK:
„The misbehavior of organisms“ (Breland & Breland, 1961)
Grenzen der OK bei biologisch angelegtem Verhaltensrepertoire der Organismen.
16
Erwünschte Verhaltensweisen nach anfänglichen Erfolgen werden ersetzt durch unnötiges
(sogar hinderliches), nie unverstärktes Verhalten
Z.B. nachdem schon gelernt: Schweine vergraben Münzen,
Waschbären reiben aneinander, Huhn zeigt Kratzbewegungen vor Hebel.
Harter, aggressiver Charakter
Erklärung: sind Verhaltensweisen, die Tiere in Natur bei/vor Konsum zeigen. Münzen als
sekundäre Verstärker werden speziestypisch wie primäre behandelt.
Instinctive drift: „learned behavior drifts towards instinctive behavior“.
Gelerntes Verhalten verdrängt weil Auftreten speziestypischer, explorativer und appetitiver
Verhaltensweisen im Kontext regelmäßiger primärer Verstärkung.
 Implikation für OK: es können nicht beliebige Verh.weisen operant kond. werden, muss
am biologisch angelegten Verhaltensrepertoire des Organismus ansetzten, wird durch diese
beschränkt.
Autoshaping: (Paradigma des conditioned key pecking) Brown&Jenkins, 1968
Tauben picken auf Lichtfeld, das vor Futter leuchtet, obwohl kein op. Verhalten für
Futtererhalt nötig.
Ursprüngliche Erklärung: abergläubisches Verhalten (Schauen- Annähern- Picken, sukzessiv
verstärkt)
 Widerlegt: keine systematische Annäherung. Zeigt z.B. Rachlin, 1969 mit Fotos: Tauben
zeigen unregelmäßiges (!) Verh., mal Picken, dann nicht, Hinschauen oder nicht…
Williams & Williams, 1969: Picken selbst dann, wenn systematisch nicht oder verzögert
verstärkt wird
Erklärung mit KK: Lichtfeld = CS, Futter = US, Picken = CR. Wenn CR etabliert, auch
gezeigt, wenn nur CS und kein Futter. Zumindest wenn Kontingenz.
Ass. zwischen Licht und Futter, nicht Picken und Futter.
Evidenz für KK: Durchlach 1986: CS-US-Kontingenz variiert (z.B. Viel Futter ohne Licht
vorher)  Autoshaping nur, wenn Licht Signalwert hat, also bei Kontingenz.
Jenkins & Moore (1973): Systematische Pickunterschiede je nach Verstärker, d.h. Form der
CR abhängig von der Art der UR.
Gruppe1: Futter als US, Gruppe 2: Wasser als US
Ergebnis: Gruppe 1 Annäherung mit Schnabel auf, Augen zu, Gruppe 2 Schnabel fast zu,
Augen auf. Entspricht dem natürlichen Verhalten der Tauben bei Futter/Wasseraufnahme =
sign tracking. Ändert sich je nach Quali des Reizes  R entspricht der Situation =
stimulusbezogen = KK
Operante Konditionierung II
Kontinuierliche vs. Intermettierende Verstärkung
Humphreys paradox: selten/intermettierend verstärktes Verhalten ist in Extinktionsphase noch
lange stabil.
= partial-reinforcement Effekt: erhöhte Löschungsresistenz nach seltenerer Verstärkung.
Häufiges oder 1:1 verstärktes Verh. verschwindet während Extinktion sehr schnell. Liegt an
Diskriminationshypothese: (Mowrer & Jones, 1945) Bei unregelmäßiger Verstärkung ist
Umstellung auf Löschung für Organismus nur schwer zu erkennen, weil wenn vorher nur
selten verstärkt ist Wechsel zunächst kaum zu bemerken. Wenn kontinuierlich verstärkt fällt
sofort auf.
Z.B. Glücksspielautomat: wirf immer wieder Geld rein, auch wenn lange nichts gewinnt, weil
ist normal dass nicht immer gewinnt. Evtl. sogar häufiger je länger keine Verstärkung kam.
(Anders bei defektem Getränkeautomat)
17
Standard-Verstärkerpläne:
Fester Quotenplan: (fixed ratio) Verstärkung nach jeder n-ten Reaktion. Bei FR-10 jede 10. R
verstärkt. Z.B. Akkordarbeit in Fabrik
Variabler Quotenplan: (variable ratio) n variiert zufällig um einen Mittelwert, erforderliche R
Anzahl variiert von Verstärker zu Verstärker. Bei VR-10 Verstärkung nach 7,11,9….
Reaktionen. Z.B. funktionierender Glücksspielautomat, Lotto.
Fester Intervallplan: (fixed interval) Erste Reaktion nach einem Zeitintervall, das nach der
letzten Verstärkung beginnt, wird verstärkt. Hängt von verstrichener Zeit und folgender
Reaktion ab.Eine einzelne R nach festem Intervall bringt Verstärker. Bei FI-10 10 Sek. nach
der Verstärkung wird die nächste bereitgestellt – muss durch R aber erst abgeholt werden! (In
Zeit bis zur R stoppt die Uhr). D.h. nicht automatisch alle 10 Sek. Verstärker, neues Intervall
beginnt erst nach Einlösen der Verstärkung  steht nach 10 Sek. zur Abholung bereit.
Intervall an sich ist time-out, reagieren hier bringt nichts.
Z.B. verpasster Bus, Fahrplan
Variabler Intervallplan: ( variable interval): Intervall variiert zufällig um einen Mittelwert.
Bei VI-10 :Zeitintervalle 7, 10, 9s ab nach der letzten Verstärkung. Die Zeit zwischen
Verstärkerbereitstellung variiert von Verstärker zu Verstärker. Z.B. besetztes Telefon.
Charaktersistische Kurven der kumulativen Verhaltenshäufigkeit (für die 4
Standardverstärkerpläne):
Papier über Walze, Stift bei jeder R weiter vor  Kurve (wenn keine R = Linie).
FR: Kurze Pause nach Verstärkergabe (Delle= Nachverstärkerpause), abrupter Übergang von
Pause zu neuer R, linearer Anstieg bis zur nächsten Verstärkung. Stop-and-go.
VR: Keine Pause nach Verstärkung. Steil, konstanter Anstieg
FI: Nach Verstärkergabe weniger Reaktionen, gegen Ende des Intervalls steigt
Reaktionsgeschwindigkeit/häufigkeit, etwas flachere Kurve als bei Quotenplänen.
VI: keine Pausen, Reaktionen erfolgen gleichmäßig, Kurve flacher als alle anderen: am
wenigsten R pro Zeit.
Nachverstärkerpausen im festen Quotenplan:
Hypothesen: Sättigung, Ermüdung, Verstärker-Distanz
 Zunahme der Pausen bei hoher Quote widerspricht Stättigungshypothese
 Multiple Verstärkungspläne: Kombination von 2 FR: FR-10 und FR-100. Blau kündigt
100, rot 10 an.  Ergebnis: Pause lang bei blauem Licht und kurz nach rotem, egal welcher
Plan davor war. Widerspricht Ermüdung.  Pause unabhängig von vorhergehender aber
abhängig von bevorstehender Quote
= Beleg für Verstärker-Distanz –Hypothese
Experimentelle Analyse von Verstärkerplänen:
Gleichmäßigere Verteilung der Reaktionen über die Zeit bei variablen Plänen:
VR: Nach jeder Reaktion ist Verstärker gleich wahrscheinlich, systematische Pausen nicht
sinnvoll/nicht erfolgversprechend. Quote für nächste Sequenz nie vorhersagbar, Distanz zum
nächsten Verstärker schwer einzuschätzen keine systm. Pausen nach Verst.-Distanz-Logik.
aber längerfristig umso schneller Verstärker je häufiger reagiert wird.
VI: Verstärker kann jeden Moment bereitgestellt werden, daher lange Pausen nicht
vorteilhaft. Gleichbleibende Reaktionsrate stellt sicher, dass Uhr in Gang bleibt/ dass
zumindest Verstärker gleich abholt wenn bereitgestellt.
Höhere Raten bei VR-Plänen, Vergleich der Reaktionshäufigkeit in VI- und VR-Plänen:
18
Baum (1993): Zum Vergleich der beiden müssen Verstärkerhäufigkeiten pro Zeit gleich sein.
Erst unterschiedliche VR realisiert und geschaut, wie hoch Reaktionsrate  dazu VI kreieren
mit der gleichen Verst.häufigkeit pro Zeit. (Z.B. 100x /Minute  100 Verstärker 
entspricht VR1  kann entsprechenden Intervallplan erstellen) Ergebnis: in VI weniger
reagiert.
Molekulare Erklärungsansätze: Interresponse Time Reinforcement Theory
 Die zwischen den Reaktionen liegenden unterschiedlich langen Zeitintervalle werden
je nach Plan mit unterschiedlichen Wahrscheinlichkeiten verstärkt.
Beim VI folgt auf lange Pausen mit erhöhter Wahrscheinlichkeit ein Verstärker, da
schon länger gewartet wurde, Pausen erhöhen Wkeit., dass Verstärker bereitgestellt
wurde. = selektive Verstärkung langer Interresponse-Intervalle = Differentielle Verstärkung
langer Reaktionsintervalle bei VI. –> deshalb weniger R/Zeit bei VI
 Bei VR kein Zusammenhang zwischen Pausen und Verstärkerwahrscheinlichkeit, da
einzig Reaktionsrate zählt. Kurze Pausen führen sogar häufiger zur Verstärkung, weil
Verhalten geblockt auftritt insgesamt deutlich mehr kurze Pausen als lange 
Wkeit auch höher, dass Belohnung in Block und nicht nach langer Pause kommt.
= differentielle Verstärkung kurzer Pausen(Kurze IRTs deshalb gestärkt, weil häufiger
vorkommen – häufiger verstärkt) (Klausur)
Molarer Erklärungsansatz: Response-Reinforcer Correlation Theory
VI: Korrelation zwischen Reaktionsanzahl pro Zeit und Verstärkerhäufigkeit pro Zeit ist
nahezu Null (ab dem Moment, wo alle bereitgestellten Verstärker zuverlässig abgeholt
werden), weil häufigeres Reagieren in festgesetztem Intervallplan keine zusätzlichen
Verstärker bringt, Verstärkerhäufigkeit nicht abhängig von Reaktionshäufigkeit pro Zeit.
Tier lernt langfristige Beziehung zwischen Reaktions- und Verstärkungsrate (zw.
durchschnittlicher Reaktionsrate und Gesamtverstärkungsrate)
VR: lineare Beziehung zwischen Reaktions- und Verstärkungsrate. Je mehr reagiert desto
mehr Verstärker, Korrelation 1.
Operante Konditionierung III
Positive Verstärkung: Verhalten mit Auftreten des Stimulus gekoppelt
Negative Verstärkung: Kopplung eines Verhaltens mit Ausbleiben eines Stimulus/ der
(aversiven) Konsequenz, erhöht dessen Auftrittswahrscheinlichkeit. Aversiver Reiz
beendet nachdem Verhalten gezeigt wurde
-Laborexperiment (Solomon & Wynne, 1953): Hund in shuttle box, Ausbleiben des
Schocks bei Springen über Wand erhöht Auftrittswahrscheinlichkeit für Springen
Verstärkung von Springen durch Ausbleiben des aversiven Reizes.
-Alltagsbeispiel: Nörgeln/ Schreien von Kind hört auf (Ausbleiben des Stimulus) wenn
Mutter nachgibt  Nachgiebiges (inkonsequentes?) Verhalten der Mutter verstärkt.
Positive Bestrafung: Kopplung eines Verhaltens mit aversivem Reiz / mit Auftreten eines
Stimulus reduziert Auftrittswahrscheinlichkeit für das Verhalten.
Z.B. Schwatzen im Unterricht wird von Strafarbeit gefolgt  reduziert Wahscheinlichkeit für
erneutes Schwatzen im Unterricht.
Negative Bestrafung: Kopplung eines Verhaltens mit Ausbleiben eines Stimulus (eines
positiven Reizes) reduziert dessen Auftrittswahrscheinlichkeit. Entzug positiver Verstärker,
time-out, Auszeit.
19
Z.B. bekommt unartiges Kind kein Abendessen => reduziert Wahrscheinlichkeit für unartiges
Verhalten in der Zukunft
Flucht – und Vermeidungsverhalten:
Flucht: Fliehen vor bereits eingetretenen aversiven Konsequenzen. Z.B. flieht Hund zu
Beginn der Durchgänge erst in andere Kammer, nachdem Schock schon eingetreten ist.
Aufrecht erhalten durch negative Verstärkung, beenden des Schocks Springverhalten
verstärkt.
Vermeidung: Ausweichen vor negativer Konsequenz, bevor diese eintritt  bestimmte
Verhaltensweisen entwickeln, so dass es gar nicht erst zum Auftreten des aversiven Reizes
kommt bzw. dieser nicht zu spüren ist. Z.B. springt Hund bald schon in andere Kammer, und
bevor die 10 Sek. zwischen Licht-aus und Schock verstrichen sind u. entgeht so dem Schock.
Auch hier wegen negativer Verstärkung weil neg. Konsequenz ausbleibt.
Effektivität von Bestrafung:
-Intensitäts- und Kontiguitätseffekte
-Bestrafung ist parasitär zur Verstärkung: Verhalten muss erst gezeigt werden, damit es
bestraft werden kann. Damit Bestrafung Verhalten unterdrücken kann, muss das Verh. vorher
regelmäßig aufgetreten und damit vorher regelmäßig verstärkt worden sein.  Bestrafung
arbeitet gegen die Verstärkung, den pos. Anreiz. Damit ist jede Bestrafungssituaiton
eigentlich Bestrafung plus Verstärkungssituation. (Ohne vorherige Verstärkung keine
Bestrafung)
Löschung von Verh. durch Bestrafung langfristig nur sinnvoll, wenn anstelle des zu
löschenden Verh. alternatives Verh. aufgebaut wird, das den gleichen Verstärker bringt. Sonst
würde immer wieder kommen, wenn Bestrafung wegfällt, weil pos. Anreiz ja immer noch
erstrebenswert.
Spezifische und unspezifische Effekte von Bestrafung auf Verhaltensunterdrückung.
Church et al., 1970
Gruppe 1 + 2: Hebeldrücken + Ketteziehen etabliert
 Kette aus Käfig raus, nur noch Hebeldrücken möglich
Gruppe 1: Hebeldrücken kontingent bestraft
Gruppe 2: zufällig variierte aber gleich hohe Anzahl an Schocks wie Gruppe 1, also nichtkontingent geschockt
 Kette wieder in Käfig, keine Schocks mehr
Ergebnis: beide Gruppen ziehen weniger an Kette = unspezifischer Effekt, weil nie direkt mit
Schock gekoppelt
Gruppe 1 Hebeldrücken noch massiver unterdrückt als Ketteziehen = spezifischer Effekt
In Gruppe 2 Hebel etwa genauso wenig genutzt wie Kette
 Kontingente und spezifische Bestrafung am effektivsten.
(Generelle Verhaltensunterdückung (CER) durch Präsentation eines aversiven Reizes, nicht
durch Bestrafung). Angst erzeugt spezifischere Verhaltensunterdrückung als Furcht.
Das Verh., das während Schockphase ausgeführt wurde/werden konnte hinterher stärker
unterdrückt. = spezifisch
Vorher aufgebaute Verh.weisen, die während Schockphase nicht ausgeführt werden konnten,
weniger stark reduziert anschließend = unspezifisch, genauso starke Unterdrückung wie bei
non-kontingenter Bestrafung.
20
Effizienz von Bestrafung: effizient wenn: intensiv, unmittelbar ( Kontiguität), kontingent
und spezifisch. Außerdem am effizientesten wenn alternative Verh.weisen aufgebaut werden.
 Implikation f. Alltag/Therapie: Bestrafung sollte ohne Verzögerung nach zu löschender
Verh.weise auftreten, sollte ersichtlich sein, auf welches Verhalten sie abzielt, sollte nur
eingesetzt werden, wenn Verh. auch tatsächlich gezeigt wurde, sollte intensiv sein (sonst
Habituation=> immer stärkere Bestrafung) + idealerweise alternative Verh.weise aufbauen,
die gleiche/ähnliche Verstärkung bringt.
Bestrafung ist kein Lernen über Löschung bzw. erst später, wenn dann tatsächliche Löschung
einsetzt => Bestrafung beschleunigt Löschen nicht.
VERMEIDUNG
Standartexperimentalparadigmen zur Analyse von Vermeidungsverhalten
 „signalled shock“ (Solomon & Wynne, 1953)
Hund in 2-Kammer-Käfig. Licht aus 10 Sek. später Schock. Licht anSchock aus.
Erst hopst Hund hin und her bei Schock. – Wiederholt springt irgendwann über Wand
in andere Kammer, wo Licht an und kein Schock.  hier auch Licht aus Hund springt
zurück in andere Kammer.
Bald gelernt, Schock ganz zu vermeiden und vor Ende der 10 Sek. nach Licht aus
(=Hinweisreiz) in andere Kammer springen.
Vermeidung des Schocks verstärkt Springverhalten, auch wenn nach Licht-aus gar kein
Schock mehr kommt. (extrem löschungsresistent)
 Freie operante Vermeidung, Unangekündigtes Flucht-/Vermeidungslernen („Sidman“Vermeigung) Sidman 1953
Hebeldrücken, Schocks ohne Signal vorher.
-- wenn Tier nichts tut  alle 5 Sek. Shock
-- wenn reagiert  Verschiebung Schock um 30 Sek. nach hinten, jedes Drücken in Pause
leitet neue Pause ein
D.h. jede R verschiebt nächsten Schock, kann durch kontinuierliches Drücken ganz
vermieden werden.
Auch hier extrem löschungsresistentes, stabiles Vermeidungsverhalten, obwohl kein
offensichtlicher Hinweisreiz.
Theoretische Erklärungen von Vermeidung
Zwei-Faktoren-Theorie (Mowrer, 1947):
1. klassische Konditionierung von Furcht
2. Furchtreduktion als Verstärker der Vermeidung (negative Verstärkung) (OK)
-Bei „signalled shock“: Schock= US, Angst = URCR, Licht aus = CS. Durch KK wird
die Angst von US auf CS übertragen. KK
OK: Wenn in andere Kammer springt, dort Licht noch an = Vermeiden von Licht aus.
Springen reduziert Furcht vor CS (= Wegfallen eines aversiven Reizes bzw. Gefühls,
nämlich der Furcht) = negative Verstärkung von Springen. Verstärker = Flucht vor Angst
auslösendem CS/ Beseitigung der Dunkelheit weil angstauslösend. Der aversive Reiz ist
die Angst, die entsteht, wenn das Licht ausgeht.
-Bei „unsignalled shock/ freie operante Vermeidung“ :
1. Faktor KK: Schock= US, Angst = UR, Verstrichen der Zeit seit letzter Reaktion =CS
(Angstcue) Mit zunehmendem Verstreichen der Zeit steigt Angst.
2. Faktor OK: Hebeldrücken reduziert Angst weil verlängert Zeit. Beenden der Angst
durch Hebeldrücken = negativer Verstärker der Vermeidung
21
Bei 2 Faktor Theorie ist Verstärker nicht Vermeidung des Schocks sondern Vermeidung
des Angst auslösenden Stimulus.
Pro 2-Faktor:
Erwerb neuen Verhaltens, um Furchtsignal zu beenden (z.B. Springen)
Wenn Hunde nach 2 in 1 Kammer Käfig wo Licht aus und es dort Schalter für Licht an
gibt, lernen schnell Schalter drücken.
Suppressionseffekte des Furchtsignals (Kamin et al. 1963): Eine Reaktion, die Signal
hervorruft, das Furcht ankündigt wird unterdrückt, lässt nach.
Contra 2-Faktor:
-Vermeidung auch ohne CS (Hernstein & Hineline, 1966)
-Vermeidung ohne CR: Kein Zeichen von Furcht nach gut gelernter Vermeidung (Bald
keine Furcht mehr, wenn springt weil aversive Konsequenz ja unter Kontrolle  Aber
Vermeidung aufrecht erhalten!) Anscheinend CR nicht nötig.
- Löschung von Furcht und Vermeidung: Furcht kann gelöscht werden durch gut gelernte
Vermeidung und Vermeidung kann nach Responseblockierung gut und schnell gelöscht
werden (Vorher allerdings Vermeidung stabil, auch wenn kein CS mehr da, was ja Fall ist
wenn springt)
Herrnstein &Hineline (1966)
Ratten konnten durch Hebeldrücken von einem 30% auf 10% Plan wechseln (mit einer 30
bzw 10%igen Wahrscheinlichkeit für Schock) Wenn erster Schock im 10% Plan
automatisch wieder im 30% Plan usw.– so führte häufiges Hebeldrücken zu
durchschnittlich weniger Schocks, jedoch bot es keine Gewähr für eine festgelegte
Zeitspanne ohne Schocks. D.h. es wird immer Schocks geben, nur bei Drücken mit
geringerer Wahrscheinlichkeit. Damit gibt es keinen Furchtreiz, - signal, denn Schock
kann immer auftreten (Verstreichen der Zeit kein CS mehr), mehrmaliges Hebeldrücken
im 10%P bringt erstmal nichts (erst wenn wieder nach schock im 30er Plan)
Ergebnis: trotzdem stabiles Vermeidungsverhalten!
 kann nicht mit der 2-F-Theorie erklärt werden, da kein CS
kann mit 1-Faktor-Theorie erklärt werden, die besagt, dass auch „relativ“ positive
Ereignisse ein Verstärker sein können. Nicht die reduzierte Kontingenz sondern die
„schock-freie-Phase“ ist der effiziente Verstärker (denn Tiere haben in Vergangenheit ja
Schocks erfahren und vergleichen mit dieser, nicht mit neutraler Basis). Somit verstärkt
schon die Reduktion in der relativen Frequenz aversiver Reize Vermeidungsverhalten.
„nichts“ ist besser als schocks.
Die Tiere kriegen in unregelmäßigen Abständen Schocks, und zwar nach nem 30% Plan.
Wenns den Hebel drückt, kommt es automatisch in den 10% Plan. Da kommt der Schock
dementsprechend seltener, aber er kann auf keinen Fall vermieden werden. Sofort, wenn
der Schock vorbei ist, wechselt der Plan wieder auf den 30% Plan, wo Schocks durch
Hebeldruck und Sprung in den anderen Plan vermieden werden können. Doof ist, wenn
der nächste Schock im 10% Plan sofort kommt, denn dann wechselt der Plan ja sofort
wieder.
Was da untersucht werden sollte ist folgendes: Die verstrichene Zeit kann nicht als CS
wirken, da mehrmaliges Hebeldrücken nichts bringt. Es gibt auch keinen anderen FurchtCS wie Licht oder Zeit etc. Trotzdem wird regelmäßiges Verhalten gezeigt: Der Hebel
wird oft gedrückt. In diesem Experiment wurde der Unterschied in der relativen
Häufigkeit von Schock im Gegensatz zu Ausbleiben eines Schocks bzw. die Schockfreie
Phase zum Verstärker.
22
Ein-Faktor-Theorie: Operante Vermeidung
Reduktion in der rel. Fr. aversiver Reize verstärkt Verm.verh.
Relativ positive Ereignisse reichen
Schock-freie Phase ist effizienter Verstärker (nicht Kontingenz), zeitlich unmittelbare
Konsequenz ist ausschlaggebend (auch nicht rel. Häufigkeit  siehe Hineline 1970)
Wenn Tier reagiert ist rel. H. geringer als wenn nicht reagiert = negativer Verstärker
Kontra: Löschungsresistenz; unabhängiger CS wirkt als Furchtsignal, verstärkt
Vermeidungsverhalten
Hinelines Experiment zur Dissoziation von Verzögerung und Häufigkeit
(sagt, dass Tiere nicht über längeren Zeitraum hinweg Korrelationen ein schätzen können)
20-Sek. Intervalle.
Keine Reaktion: Schock nach 8 Sekunden.
Reaktion vor Ende der 8 Sek: Schock nach 18 Sek.
 Schock nie vermieden, nur verschoben oder nicht
 Ratten reagieren regelmäßig! (Kann also nicht mit Häufigkeit zu tun haben)
Teil 2) Wenn keine Reaktion: wie in Teil 1 20-sek.Intervall mit Schock nach 8 S
Wenn Reaktion: Schock genau 10 S später, nächstes Intervall beginnt direkt nach Schock
 durch häufige R verkürzen sich die Intervalle und es gibt insgesamt mehr Schocks
 trotzdem drücken Ratten häufiger den Hebel
Nach Hinten Verschieben = unmittelbare Konsequenz, ist ausschlaggebender als
Häufigkeit (die ist im 2.Teil sogar höher bei Reagieren).
Kognitive Theorie: (Seligman & Johnston, 1973)
Tiere und Menschen treffen rational Entscheidungen
Liefert Erklärungen auf der Basis von Präferenzen, Erwartungen und
Bestätigung/Widerlegung dieser Erwartungen durch Erfahrungen.
Wählt immer das Verhalten, das laut Erfahrung die Präferenz besser bedient  Erwartung
(bleibt, muss nicht aufgefrischt werden)
Wenn Präferenz: Schock besser als kein Schock und Erwartung, dass R
Wahrscheinlichkeit für Schock reduziert und nicht R P (Schock) erhöht, ist:
Bestätigung der Erwartung, wenn R tatsächlich Schock reduziert und umgekehrt.
Widerlegung wenn R Schock bringt und umgekehrt.
Erklärt auch: Löschungsresistenz
Handeln aufgrund von Erwartungen, selbst wenn diese falsch. Denn durch Reaktion
Erwartungen bestätigt, kein Grund zur Änderung und weil nie nicht reagiert kann auch
nicht widerlegt werden.
Löschung nach Responseblockierung:
Wenn einmal die Erfahrung gemacht, weil evtl. dazu gezwungen, nicht zu reagieren
(Response blockiert), dass kein Schock mehr kommt, auch wenn keine R 
Vermeidungsverhalten gelöscht weil Erwartungen aufgrund neuer Erfahrungen
modifiziert.
Ein-F- Th. Aber keine Erklärung für CS-Furchteffekte
Biologische Theorien (Boelles, 1970)
Spezies-spezifische Defensiv_Reaktionen (SSDR)
Jeder Organismus hat angeborenes Repertoire SSDR, die evolutionär bewährt, die die
besten in Gefahrensituationen sind: Freezing, Attacke, Flucht. Werden spontan in
Gefahrensituation gezeigt  leicht als Vermeidungsverhalten erworben
23
 Im Labor: alles andere als SSDR lässt sich nur sehr mühsam als Vermeidungsverhalten
aufbauen
 Implikation für Allgemeingültigkeit von Verm.verh.: alles andere als SSDR ist
unökonomisch und funktioniert nur im Labor (aber auch nur mühsam)  damit nicht
allgemeingültig. In Natur vermeidet Gegner jegliches Gefahr für das Opfer signalisierende
Signal + Tier testet nie andere Vermeidungsverhalten aus als SSDR da die schon am besten
bewährt und alles andere zu riskant.
Erkennen von Vermeidung im Alltag nur schwer, weil wenn Vermeidungsverhalten
funktioniert, tritt negative Konsequenz ja nicht ein, nichts passiert  kann auch nichts
beobachtet werden. Kann oft von außen nicht sagen, ob Verh. erreichen positiver Konsequenz
(z.B. Shoppen wg. Kleidung) dient oder Vermeidung negativer Situationen (Stress zu Hause)
weil nur das Verhalten sieht aber nicht die Motivation dahinter. Weder Anlass noch
Konsequenz ist sichtbar.
Gelernte Hilflosigkeit: Beeinträchtigung des späteren Vermeidungslernens nach
unkontrollierbaren negativen Reizen.
Ovemier & Seligman, 1967: Hunde in Geschirr Schocks konnten nicht reagieren,
entkommen.Danach in shuttle-box: lernten kein oder kaum (entsprechend Anzahl und
Intensität der Schocks) Vermeidungsverhalten! (KG keinen Schocks ausgeliefert  lernt
schnell in shuttle box).
Aversive Reize mit vs. ohne Flucht bzw. Vermeidungsmöglichkeit
Yoked-control-design: (Seligman & Maier, 1967)
2 Tiere in verschiedene Käfige, in jedem Laufrad, Käfige gekoppelt:
Wenn eingeschaltet bekommen beide Strom. 1. Ratte konnte durch Laufen im Laufrad ihren
und gleichzeitig den Strom der 2. Ratte ausschalten  lernte dies schnell.
Ratte 2 konnte Strom nicht beeinflussen, aber bekam genauso viel + gleich intensiv wie Ratte
1 (yoked)
Also ES (escapable shocking) konnte Dauer der av. Reize beeinflussen, IES (inescabable
shocking) nicht, aber beide gleich geschockt.
KG ohne Schocks
 danach in Shuttle Box: die ES Gruppe lernte perfekt, sogar besser als KG, IES lernte
kaum/ gar nicht
 gelernte Hilflosigkeit liegt nicht an Anzahl + Intensität der Schocks (= Konfundierung
früherer Untersuchungen) sondern an Unkontrollierbarkeit der Sit.=> Kontrolle über Sit. ist
entscheidend! (auch weil nicht vorhersagbar)
Kontrolle dann auch in Folgesit. nicht mehr gelernt = gelernte Hilflosigkeit.
Generalisierungseffekte: Frühe Erfahrungen mit nicht kontrollierbaren aversiven Reizen
erzeugen Hilflosigkeit, die sich auch auf andere Situationen und anderes Verhalten überträgt.
Übertragung auf andere Formen des Lernens (Hiroto & Seligman, 1975) Humanexperiment.
Studentengruppen bekamen aversive Laute über Kopfhörer,
--Gruppe 1 konnte durch Knopfdrücken Töne für sich und für Gruppe 2 (wussten beide nicht)
beenden, Gruppe 2, ohne dies zu wissen, nicht.
-- Außerdem signalisierte grünes oder rotes Licht, ob Ton beendet wg. VP oder durch VL.
Bei Gruppe 2 immer angezeigt, dass wg. VL.
 Danach Anagramme
 Ergebnis: Gruppe 2 wesentlich schlechter
24
=> gelernte Hilflosigkeit auch dann, wenn Originalsit. völlig andern Charakter =
Kontrollverlust als Ursache eines globalen Motivationsdefizits.
Hilflosigkeit als Modell der Depressionsentstehung: Defizit oder funktionale
Rekonfiguration?
Fokussierte vs. offene Informationsverarbeitung
Lee & Maier,1989:
Eine Gruppe von Ratten erlernte Hilflosigkeit, andere nicht.
In Käfig, wo schwimmen mussten, hinter Tür Plattform
Bedingung1) Plattform immer links, Tür schwarz oder weiß
 Standard-Hilflosigkeitseffekt
Bedingung2) Plattform auch immer links, beide Türen schwarz
 beide Gruppen gleich gut => kein Hilflosigkeitseffekt mehr!
Bedingung3) Plattform mal rechts, mal links, Türen wieder schwarz/ weiß
 IES Gruppe signifikant besser!
Erklärung: IES-Ratten haben Ziel aufgegeben, weil Schocks immer kamen, mussten
Aufmerksamkeit von Ziel lösen und auf andere Dinge richten  offenerer Fokus. Ist klug,
ablenkbar zu sein.
 In 3. Bedingung hilfreich, weil Tunnelblick nicht weiterhilft
Bd1) IES mit offenem Fokus ließ sich ablenken von Türfarbe
Bd3) IES im Vorteil mit offenem Fokus, weil Farbe zufällig wechselt.
Hilflosigkeit ist auch Nicht-Kontingenz zwischen Vermeidung aversiver Stimuli und
Reaktion. Weder positive noch negative Kontingenz, Person hat keine Kontrolle, kann nicht
vorhersagen, weiß nicht, was tun soll weil Verh. keinen Einfluss hat, Ergebnis nicht
beeinflussbar, weder durch reagieren noch durch nicht reagieren. => gelernte Hilflosigkeit
Operante Konditionierung IV
Verschiedene Arten von Assoziationen
R-S*: spezifische Erwartung bestimmter Verstärker (S*) als Folge bestimmter
Verhaltensweisen (R) . Spezifische Handlungs-Effekt-Assoziation.
Beleg: Studie zur US- Um-,/ Abwertung: Abwertung spezifischer Verstärker führt zur
Reduktion der damit assoziierten Verhaltensweisen.
1) Hebel Futter
Kette Zuckerwasser
2) Umwertung eines Verstärkers, z.B. Futter frei zur Verfügung stellen  Schock geben
(oder einfach umwerten – satt füttern)
 Futter bekommt andere Bedeutung (wertlos oder negativ)
Test: Kette + Hebel  Wie verändert sich Häuf. der Verh.weisen?
Ergebnis: P (Kette) = unverändert zu Phase 1
P (Hebel) = deutlich reduziert!
Erklärung: Muss Handlung mit Effekt assoziiert haben, denn Hebeldrücken war in P2 nicht
möglich und trotzdem reduziert in Test In dem Moment wo Futter wertlos, kann auch Ass.
zw. Futter – Hebel nicht mehr existieren. Muss spezif. Assoziation bestanden haben, denn
Wert von S* sinkt und dies wirkt sich auf erstes Verhalten aus.
S-S*: Erwartung bestimmte Verstärker in bestimmten Situationen (S) = Ass. zwischen
neutralem Hinweisreiz + der damit ass.Verstärkung. Ist zusätzliche(!)Quali.von Ass.(zu R-S*)
25
Sit. ist mit Verstärker gekoppelt, wirk dann rückwärts über die R-S*-Ass. auf das Verhalten.
Ass. bidirektional, Sit. steuert indirekt das dazu passende Verh.
Beleg: (Colwill & Rescorla, 1988):
P1) Ein Verhalten (nosepoke). S-S* -Ass. lernen
Licht an Futter
Ton Zuckerwassser
P2)Ohne Hinweisreiz, R-S* -Ass. lernen
Hebel Futter
Kette Zuckerwasser
Test: Licht: Hebel vs. Kette
Ton: Hebel vs. Kette
Ergebnis: unter Licht deutlich mehr Hebel, unter Ton deutlich mehr Kette
Muss indirekte Verbindung sein weil Hebel/Kette nie mit Licht/Ton gepaart, d.h. in best. Sit.
wird damit ass. Verstärker erwartet, führt über gelernte R-S* -Ass. zur Aktivierung des
assoziierten Verhaltens = R-S* und S-S*-Ass. in Kombination
S-R: „Einbrennen“ von habits (sHr) durch Verstärkung, (durch Verstärkung entstehen
Gewohnheiten) (Hull, 1943), Verstärker selbst nicht Teil der erworbenen Ass.  gelernt wird
direkte Ass. zwischen Situation+Verhalten.(Verstärker nur Katalysatorfunktion, weil dadurch
die Ass. stärker)
Beleg: Restverhalten nach US-Umwertung. Kann nicht an Verstärker liegen, denn der wird
nicht beachtet wenn erfolgt: Ratte lässt Futter liegen, drückt dennoch Hebel, aus Gewohnheit.
Kaum direkte Evidenz (Nur unter Licht-an Hebel drücken weil nur dann Futter kommt ist
auch S-S*. Auch unter blau mehr Hebel drücken und unter rot mehr Kette ziehen weil gelernt,
dass nur in best. Sit. best. Verhalten sinnvoll ist (Sit. mit Verh. assoziiert), kann alternativ mit
OS erklärt werden, der anzeigt, wann bestimmte R-S*-Ass. gelten)
OK ohne Reaktion und Verstärkung
Lernen ohne Reaktion: Labyrinthlernen auch bei passiver Bewegung (McNamara 1956)
Ratten wurden im Drahtkorb durch Labyrinth gefahren  laufen sofort richtig danach.
KG desorientiert
 Gelerntes in Verhalten umsetzbar, obwohl dieses Verh. vorher nie verstärkt.
 stellt Grundprinzipen des law of effets in Frage, das besagt: Ausführen der Reaktion als
notwendiger Bestandteil des Lernprozesses, nur wenn R auftritt kann auch verstärkt werden.
Grundprinzip ist Lernen durch Versuch und Irrtum, also aktive R. In Frage gestellt.
Lernen ohne Verstärkung: (latentes Lernen)
Gelernt wird auch ohne Verstärker, das Verh. dazu wird bloß erst bei Verstärkung gezeigt.
Labyrinthlernen ohne Belohnung führt zu dramatischem Leistungszuwachs unmittelbar nach
Einführung Verstärkung (Tolman & Honzik, 1930)
Gruppe 1: immer verstärkt wenn an Ziel
Gruppe 2: kein Verstärker
Gruppe 3: Verstärker ab Tag 12
 Gruppe 1 immer zielorientierter, Gruppe 2+3 bis Tag 12 verharren auf Niveau relativer
ziellosigkeit.
 Belohnung einführen ab Tag 12 für Gruppe 3
 innerhalb eines Durchgangs sofort auf Niveau der Gruppe 1
D.h. müssen nicht erst anfangen zu lernen = Latentes Lernen
 Implikation: Lernen an sich bedarf keiner Verstärkung, nur um Verhalten zu aktivieren
(Performanz) ist Ziel/ Belohnung nötig, sobald verstärkt, wird bereits erworbenes Wissen
genutzt.
26
Gelernt wird bei Lernen ohne R oder ohne S* (beim latenten Lernen): kognitive
Repräsentation des Verhaltens, Art „kognitive Landkarte“ wird entwickelt, die bei Bedarf
abgerufen und ausgeführt werden kann. Nicht eine bestimmte Verhaltensweise wird gelernt,
sondern ein Wissen, dass hierzu genutzt werden kann. Ass. zwischen Mittel und Ziel, die
durch Verstärker energetisiert wird. Bildung von Erwartung + kogn. Landkarte
Beobachtungslernen (Bandura, 1965)
Lernen ohne eigenes Verhalten und mit stellvertretender Verstärkung. (Kombination von
Lernen ohne R und Lernen ohne S*)
Kindern Film gezeigt, in dem Modell Puppe niederschlägt  Nachahmungseffekte: Kinder
machen nach, obwohl nie belohnt und nie von „Lerner“ gezeigt vorher.
Zusätzlich modulieren Modellqualitäten den Effekt.
Stellvertretende Verstärkung:
Wenn 2. Person im Film das Modell lobt  steigt Verhaltenshäufigkeit im Vergleich zu den
Bedingungen, in denen Vorbild bestraft (= indirekte Bestrafung des Lerners).
aber wenn explizit dazu aufgefordert, nachzuahmen: alle Kinder können es, haben gelernt –
unabh. davon, ob indirekt belohnt oder nicht!
Lernen vs. Performanz:
Lernen: kognitive Komponente, die Repr. des Verhaltens
Performanz: Gelerntes in Verhalten umgesetzt, geschieht unter Belohnung, von
Anreizbedingungen abhängig, unmittelbar durch Verstärkung reguliert.
Zirkularität der Verhaltenserklärung durch Verstärkung:
Ursache von Veränderungen in Verh.wahrscheinlichkeit ist syst. Kopplung mit
Verstärker/Strafreiz.
Ob reagiert oder nicht wird immer auf Verstärker attribuiert, Verstärker als „Reiz, der
Verhalten verstärkt“ und es wird angenommen, dass er „Verhalten verstärkt, weil er ein
Verstärker ist“ – wenn keine Änderung- dann kein S* = Zirkelschluss  Kein
Vorhersageelement
 Braucht Kriterium, das im Voraus sagt, ob Stimulus als Verstärker wirkt
 Bedürfnis- und Triebreduktion (Hull, 1943, Miller, 1984)
Reiz ist dann Verstärker, wenn er biolog. Bedürfnisse und Treibe befriedigen/reduziern
kann (z.B. Wärme, Schutz, Nahrung)
 aber: gibt auch Verstärker, die nicht in dieses Schema passen, z.B. Fernsehen beim
Menschen. Oder männl. Ratte drückt auch dann regelmäßig Hebel, wenn es dadurch
paarungswilliges Weibchen nur sehen kann – es also nicht zur Triebreduktion kommt.
 Transsituationalität: (Meehl, 1950)
Reiz ist dann Verstärker, wenn er in einer Sit. bei einem Individuum einmal als solcher
gewirkt hat – sollte dann auch in anderen Sit. wirken, andere Verhalten verstärken. D.h.
interindividuell unterschiedliche aber intraindividuell über Situationen hinweg konstante
Verstärker.
Empirisch gehaltvoll weil Hypothese aufgestellt und getestet werden kann = differentielle
Hypothese
Funktioniert aber nur, wenn Triebe – und Bedürfnisse konstant gehalten werden.
 Verhaltensgelegenheiten als Verstärker/ das Premack’sche Prinzip:
Verstärker ist kein Reiz, sondern das Verhalten, das man mit diesem Reiz machen kann,
also die Gelegenheit, ein bestimmtes Verhalten auszuführen.
Verstärker: Wahrscheinliches Verhalten als Verstärker für seltenes. Wenn häufig auftritt,
wirkt als Verstärker.  Die Möglichkeit, ein attraktiver Verhalten auszuführen, wirkt
verstärkend. Verhaltensgelegenheit als Verstärker. Je häufiger, desto verstärkender.
27
Bestrafung: Seltenes Verhalten als Strafe für häufiges. Wenn Kontingenz eingeführt, bei
der auf attraktiver Verh. zwangsläufig unattraktives (das selten ausgeführte) folgen muss,
dann reduziert dies das attraktive, weil durch seltenes bestraft. Z.B. Laufzwang als
Strafreiz für Trinken bei einer durstigen Ratte. (also Nutzung der reziproken Kontingenz,
um sicherzustellen, dass Verhaltensweisen in fester Quote zueinander auftreten).
Verletzung des Transsituationalitätsprinzips:
Weil nur seltenere Verhaltensweisen , nicht häufige, verstärkt werden können, dieselbe
Verhaltensmöglichkeit kann in einer Sit. als Verstärker (wenn häufiger als Sit.) und
einmal nicht als Verstärker (wenn seltener als Sit.)wirken.
Z.B. drückt ein Affe am liebsten Hebel, mit mittlerer Wkeit Türöffnen und am wenigsten
Kolbenziehen.
Wenn Bedingung H T und K T, wirkt T nur für K als Verstärker, nicht für H (da H ja
schon in der Basisbedingung am häufigsten auftritt.
 Hier ein und die selbe Verhaltensmöglichkeit je nach Situation als Verstärker oder
nicht - widerspricht dem Transsituationalitätsprinzip weil nicht transsituativ
verstärkend.
Reaktionsdeprivation:
Stärker eingeschränktes (stärker depriviertes)Verhalten als Verstärker für weniger
eingeschränktes, weil eingeschränkt = kostbar. Funktioniert auch, wenn das stärker
eingeschränkte das seltenere aus der Basisbedingung ist. Denn immer wenn das verlangte
Verhältnis von häufigem zu seltenem Verhalten größer ist als in der Basisbedinung (also
wenn noch mehr attraktives und noch weniger unattraktives gefordert wird) kann das seltene
Verhalten als Verstärker dienen. Tier zeigt dann noch mehr häufiges um wenigstens etwas das
seltene ausführen zu können.
=> Überlegenheit dieser Theorie ggü. dem einfachen P’schen Prinzip (nur häufig über selten)
Je nach Verstärkerplan wird Kompromiss gewählt Annäherung an Basisbedinung
 Mazur 1975:
Basis: Trinken 17%, Laufen 10%
Reziproke Kontingenzbedingung 1) T:L = 1:3  T verstärkt L, L bestraft T
Ergebnis: Um mehr Trinken zu können, läuft mehr als in Basis– aber da Laufen Trinken
bestraft, trinkt weniger als in Basis
Bd 2) T:L = 9:1  L verstärkt T, T bestraft L. Weil Bedürfnis, wenigstens etwas zu laufen,
wird depriviert  trinkt noch mehr als in Basis (L als Verstärker) und läuft aber auch weniger
als in Basis = Kompromiss mit Annäherung an Basis
Grenzen des P’schen Prinzips:
Wenn Belohnung/Bestrafung keine Verhaltensgelegenheiten bringt bzw. moduliert sondern
lediglich ein positives/neg. Gefühl durch elektrische Stimulation des Gehirns/Elektroshocks
 Olds&Milner, 1954: Ratten drücken Hebel bis zum Maximum, wenn Belohnungsareal
elektrisch stimuliert
Bzw. Schocks unterdrücken Verhalten
irrelevant, wie häufig oder eingeschränkt Verhalten vorher war
+ Konditionierte (sekundäre) Verstärkung: bewirken Aufbau eines Verhaltens obwohl selbst
nicht direkt Gelegenheit bieten, ein Verh. auszuführen.
Information als Verstärker:
„observing responses“ v.a. bei positiver Information, Verstärker ohne motivationalen Anreiz.
 je nachdem welches Feld Ratten drückten, konnten sie durch farbiges Licht entweder
darüber informiert werden, welcher der 2 Verstärkerpläne als nächstes kommt oder nicht weil
immer das gleiche Licht.
28
Die Pläne selbst waren dadurch nicht beeinflussbar
Ergebnis: klare Präferenz für informationsliefernde Taste  Information wirkt verstärkend
Doch etwas motivationsgesteuert, denn wenn Ratte durch Tastendruck erfahren kann, in
welchem Schockplan sie sich befindet  keine Präferenz für Infotaste  d.h. funktioniert
v.a. bei positiver Info
Relationen von operanter und klassischer Konditionierung
Zwei-Faktor-Theorie:
KK und OK als 2 distinkte Phänomene
Unterschiedliche Phänomene:
KK: S-S/S-R-Lernen (CS-US/CS-UR = Reiz-Reaktions-Lernen)
OK: R-S*/S-S* -Lernen (Verhalten-Konsequenz/ Situation-Konsequenz)
 unterschiedliche Assoziationen gelernt
Unterschiedliche Verhaltensklassen:
KK: Verhalten respondent, stimulusbezogen, Reflex, automatisch. Autonome R, nicht
willentlich steuerbar
OK: Verhalten operant, instrumentell, konsequenzbezogen, willentlich steuerbar.
Willkürmotorik, über die Skelettmuskulatur gesteuertes kontrolliertes Verhalten.
Gegenevidenz:
Operante Konditionierung autonomer Reaktionen:
Biofeedback (Blutdruck beeinflussen, wenn angezeigt wird).
OK bei curarisierten Tieren (Miller & DiCara)
Mäuse durch Curare lahmgelegt, keine Willkürmotorik mehr. An Atemgerät.
Herzschlag (autonome R)aufgezeichnet, Draht zur Stimulation ins Gehirn
-Durch Verstärkung (Stimulation) hohe Herzfrequenz belohnen  bald deutlich gestiegen.
-Niedrige Herzfrequenz verstärkt  Frequenz sinkt. (= Shaping)
=> autonome Reaktion Herzschlag operant konditioniert
Klassische Konditionierung willkürlichen Verhaltens:
Kontingenzeffekte beim Autoshaping, Gamzu & Williams 1971.
Autoshaping: Tauben picken an Lichtfeld obwohl Futter auch so kommt. Lichtfeld= CS,
Picken =CR, Futter = US (ist kein abergläubisches Verhalten, keine OK!)
 Funktioniert nur bei Licht-Futter-Kontingenz: wenn Futter auch ohne Licht Kontingenz
eliminiert (hohe Basisrate), kein Lernen
=> KK einer operanten Reaktion
Ein-Faktor-Theorie:
Gemeinsamer Kern von OK und KK, nutzen die gleichen Strukturen
Emotional/motivationale Ein-Faktor-Theorie der KK und OK
Dickinson & Dearing (1979)
Zentrale, motivational/emotional vermittelte Einflüsse von KK auf OK
(CER z.B. Interaktion)
Gleiche Strukturen: grundlegende emotionale Phänomene ermöglichen Austausch OK KK.
1. Ebene KK:
Präsentation eines aversiven/appetitiven Reizes  löst direkt interne Repräsentation des US
und damit Reflex (UR) aus. CS hat bald selbe Fähigkeit
2. Ebene OK: Reiz/ interne Rep. aktiviert außerdem Motivationssystem der Annäherung oder
Vermeidung, welche entsprechendes Willkürverhalten (Vermeidung, Annäherung)
29
energetisieren. Auch CS kann also Willkürverh. über Motivationssystem auslösen.Die beiden
Systeme hemmen sich gegenseitig.
=> Verknüpfung KK mit instrumentellem Verhalten
Das gleiche instrumentelle Verhalten kann Vermeidungs- oder Annäherungscharakter haben
und je nach Reiz gehemmt/aktiviert werden
US/CSkogn. RepräsentationReflexMotivationssystem Vermeidung/Annäherung
Kongruenz – und Inkongruenzeffekte auf der Ebene eines zentralen Annäherungs/Vermeidungssystems: Hemmungs – und Erleichterungseffekte auf appetitiv/aversiv
motiviertes operantes Verhalten durch kond. reize, die das Eintreten/Ausbleiben (CS+/CS-)
positiver/neg. Sit. anzeigen.
CER wäre Hemmung eines appetitiven operanten Verhaltens durch einen klassisch
konditionierten CS+, der Aufttreten eines aversiven Reizes ankündigt.
Informationale Ein-Faktor-Theorie
Informational vermittelte Einflüsse von KK auf OK
Wissen, Einsicht über bestimmte Zusammenhänge ist dabei ausschlaggebend. Ziel ist es, sich
auf Sit. einstellen zu können und entsprechend zu reagieren, was das für Zusammenhänge
sind spielt dabei keine Rolle
Informationswert von Zusammenhängen als allgemeines Prinzip des Lernens
Ist EIN Mechanismus, der bei KK und OK wirkt!
- dabei nicht wichtig, ob S-S/S-R- oder S-S*-Zusammenhang
- nur wichtig, welcher Zusammenhang informativer ist für die Konsequenz/Kausalität
Wenn CS informativer ist als operante R letztere blockiert,
wenn Reaktionen informativer sind CR geblockt
= Redundanzeffekte zwischen OK und KK
- je nach dem ob Reiz oder Verhalten einen höheren Informationswert hat, wird eine
Assoziation zwischen Verhalten und Konsequenz (R-S*) oder Reiz und Konsequenz (S-S/SR) gelernt
Einsicht hoch spezifisch -> Art des Verstärkers beeinflusst R
Kontrolle (= op. Verhalten) der Konsequenz kann übertragen werden auf einen zuvor
neutralen CS  Transfer of control
Transfer – of –control:
BEDINGUNG1)
PhaseI) KK: Ton Futter. Ton löst bald CR aus
OK: Hebel  Futter. gelernt
Hebel also instrumentelle Kontrolle über Futter, soll übertragen werden auf Ton
Test) Ton Hebel Futter
Ergebnis: Tier lernt tatsächlich blad, nur bei Ton Hebel zu drücken weil Hebel nur dann
Futter bringt, hat transfer- of-control stattgefunden.
Funktioniert, weil in Phase I Ton mit Futter assoziiert worden ist und in II Futter das Verh.
gesteuert hat. Ton kann über Repräsentation des Verstärkers Futter das Verhalten
Hebeldrücken triggern
BEDINGUNG 2)
Phase 1) KK: Ton Futter
OK: Hebel Zuckerwasser
Test) TonHebel Zuckerwasser
Ergebnis: Tier lernt nicht, bei Ton Hebel zu drücken, Hebeldrücken kann nicht abhängig
gemacht werden vom Ton!
 D.h. nur wenn eine Reaktion mit dem gleichen spezifischen Verstärker assoziiert wurde,
kommt es zum Transfer
30
 widerspricht der motivationalen 1-Faktor Theorie, denn laut dieser müsste Ton ein
generelles Annäherunssystem und beliebiges appetitives Verhalten triggern, unabhängig
davon, um welches spez. Verhalten/spez. Reiz es sich handelt
 Informationale scheint der emotionalen Theorie überlegen  Spricht für Ansatz der
spezifischen Assoziationen. Spezifischer Zus.hang wird gelernt.
Blockierung operanter Reaktionen durch informativeren CS (St. Claire – Smith, 1979)
Gruppe 1) In ca. Hälfte der Fälle folgt auf Hebel Futter, ist also partial-reinforcement mit
Kontingenz von 0,5
 Tiere lernen gut
Gruppe 2) Ebenfalls 0,5 Kontingenz zwischen Hebel und Futter, aber ein Licht leuchtet
immer dann zw. Hebel und Futter auf, wenn garantiert Futter kommt
 Ratte lernen kein Hebeldrücken mehr!
Gurppe 2) Licht immer dann nach Hebel, wenn kein Futter kommt
 Tiere lernen gut
Erklärung: für Gruppe 2 ist Licht der bessere Prädiktor (als Hebel), weil mit 100%iger Wkeit
Futter vorhersagt = Kontingenz von 1
= Blockierungsphänomen
Licht-Futter wird schnell gelernt, Hebel-Futter nicht  der bessere Prädiktor blockiert den
schlechteren (in diesem Falle blockiert CS operante Reaktion)
 Implikation: bei KK und OK geht es gleichermaßen um das Lernen von
Kausalbeziehungen zwischen Ereignissen.
D.h. EIN Mechanismus für S-S/S-R und R-S*-Beziehungen, = Mechanismus der Vorhersage.
Wird immer der bessere Prädiktor genommen, egal ob Reiz oder operante Reaktion. Dabei ist
der Informationswert von Zusammenhängen das allgemeine Prinzip des Lernens
= Beweis für 1-Faktor-Theorie
Bei OK und KK ist der Informationsgehalt eines Stimulus die ausschlaggebende Bedingung
für Konditionierung.
Es gilt der gleiche Mechanismus für alle Arten von Assoziationsbildung.
Klassisch konditionierte CS und operantes Antwort-(Reaktions-)Verhalten können als
Prädiktoren ausgetauscht werden.
OK und KK das gleiche weil Mechanismus der gleiche (Kausalbeziehungen erkennen).
Blockierung konditionierter Reaktionen durch informativere Reaktion (Garrud et al., 1981)
(klassisch konditionierter sekundärer Verstärker blockiert durch operantes Verhalten)
KG: Laufen im Laufrad bringt Futter, unmittelbar vor Futter immer Klick  beide perfekte
Prädiktoren
EG: Laufen im Laufrad bringt immer Futter, nur in 50% der Fälle vor Futter Klick  Laufen
besserer Prädiktor als Klick (Kontingenz 1 vs. K. 0,5)
Test: Hebel Klick
Ergebnis: nur die KG lernt, regelmäßig den Hebel zu drücken- obwohl ja kein Futter kommt,
aber „liebt“ Klickgeräusch weil ist klassisch konditionierter sekundärer Verstärker.
EG lernt kein Hebeldrücken in Testphase! Besserer Prädiktor (in diesem Fall eine operante
Reaktion) blockiert den schlechteren, nur noch Laufen erwirbt Assoziation mit Futter.
 Ergebnis spricht für 1-Faktor-Theorie weil ist der gleiche Mechanismus bei KK und OK,
der Lernen ermöglicht: Wissen über Kausalzusammenhänge. CS und op. Verh. können dabei
als Prädiktoren ausgetauscht werden, ausschlaggebend ist einzig der informationale Wert.
31