ALLGEMEINE II Lernen: Lernpsychologie = Oberbegriff f. sämtliche Begriffe der Verhaltensänderung, allg. Mechanismus der Verhaltensveränderung, Verh. Aufgrund von Erfahrungen, R auf Stimulus. Suche nach Gesetzmäßigkeiten. (NICHT Psychologie des Lernens) Strukturalismus (19. Jh): mentale Prozesse unterliegen Naturgesetzen Methode: Introspektion (inneres Auge) Kritik am Intr.: mangelnde Replizierbarkeit, nicht objektiv, nicht beobachtbar Klassischer S-R-Behaviorismus: (Watson) Psychologie als Naturwissenschaft, beobachtbare Umweltbedingungen (S) und beobachtbares Verhalten (R) als Forschungsgegenstand der Psy. S-R-Modell der Reflexologie, welcher S produziert welche R? Vorhersage und Kontrolle von Verhalten. Nur beobachten! Blackbox: innerorganismische (O-) Variable, mentale Ereignisse gibt es nicht, sind irrelevant (= Ontologie) Operationale Definition mentaler /innerorganismischer Konstrukte: = Verhaltensdispositionen und –tendenzen. D(p) ↔ S(p) ↔V(p) Bedingte Situation bedingtes Verhalten. Neobehaviorismus (S-O-R-Behav.): Nutzung mentaler Konstukte in Theoriebildung, O-Var. als Vermittler zwischen S und R (hypothetische Konstrukte). O-Variablen durch theoretische Zusammenhänge mit beobachtbaren Daten in Verbindung gesetzt (nicht mehr reine black box). Fokus aber immer noch auf S-R! z.B. Stunden ohne Wasser, trockenes Futter, Salzinjektion – Durst – Häufigkeit des Hebeldrucks, konsumierte Wasssermenge, tolerierte Chininmenge Radikaler Behaviorismus (Verhaltensanalyse) , Skinner. Selektion von Verhalten auf der Basis der Adaptivität für Überleben und Fortpflanzung (environment selects behavior), bzgl. : Phylogenese: Die Art (nicht Individuum!) mit den besten adaptiven organism. Strukturen wird selektiert Soziogenese:Kultur, kulturelle Wissensbestände, Tradition (gemeinschaftliche Verhaltensregeln) Ontogenese: Entwicklung Individuum durch Lernen, Erfahrung Anpassung verändertes Verhalten Hauptfokus der Lernpsychologie auf Verhaltensregelmäßigkeiten und ihrer Veränderung (nicht einzelnes Verhalten). Regeln der Veränderung, allgemeine (biologische) Gesetze Tierversuche: pro: keine placebo, demand-effekte, Kontrolle von Vorerfahrungen, billiger, weniger eth. Bedenken, geringe komplexität, prinzipielle Ähnlichkeit zum Menschen Contra: eingeschränktes Verhaltensrepertoire, qualitative Unterschiede zum Menschen, eth. Bedenken Determinismus: Kausalgesetze ≠ Determinismus, weil Konsequenzen treten nur mit best. Wahrscheinlichkeit ein, aber nicht zwingend notwendig (wenn nichts dazwischen kommt). Verhaltenserklärung durch Gründe (freie Entscheidungen des Individuums), nicht Ursachen. Außerdem sind Randbedingungen nicht alle in Kausalgesetzen enthalten, sind ja auch unendlich viele. Tendenzen. Habituation 1 Einfachste Form des Lernens (single event learning). Durch wiederholte folgenlose Präsentation eines Reizes nimmt die Reaktion auf diesen in ihrer Intensität ab. (Z.B. verstecken s. Ratten immer kürzer bei nach Katze riechendem Halsband) Ist stimulus-spezifisch, nicht die R als solche habituiert. nicht bloße Erschöpfung Reinstatement der R bei Wechsel/Kombination des Stimulus (Groves &Thompson 1970, Ratten auf Ton habituiert Licht+Ton => Startle Reaktion Licht weg Hab. Setzt wieder an. War neuer Kontext!( Siehe Auch Coolidge Effekt) Funktion: Vermeidet Ablenkung durch R auf irrelevante Reize, spart Ressourcen. Habituation =Selektionsvorteil. Adaptive Verhaltenssteuerung. Generalisierung Diskriminationsleistung bei Säuglingen via Habituation nachgewiesen (= Dishabituationsparadigma) Auf Rechteck vor Stab habituiert 1) Stab ohne Rechteck => keine OR (= Generalisierung). 2) zwei kurze Stäbe in Abstand von der Höhe des Rechtecks => OR!! Stab schon als Ganzes erkannt. Spontaneous Recovery: Abschwächung der HABITUATION durch Zeit/Pause, danach erstmal wieder starke OR – aber: (Lern-)Ersparniseffekte bim erneuten Erwerb Intensitäts- und Sequenzeffekte, Vorhersagbarkeit: Je intensiver Reiz desto schwächer Habituation. Wenn Reiz vorhersagbar (z.B. kontinuierlich lauter) verläuft Habituation als wenn es ein Reiz (konstant)wäre Davis & Wagner (1996) Gruppe 1: konstant 100 dB Töne Gruppe 2: konstant 120 dB Töne Gruppe 3: kontinuierlich ansteigende Töne 83-118 dB Gruppe 4: zufällig, Intensitäten aus Gruppe 3 alle habituierten, Gruppe 2 am schlechtesten (= Intensitätseffekt) Dann 120 dB Ton: Gruppe 2 und 4 stärkste startle-Reaktion weil unerwartet, Gruppe 1 und 3 keine OR weil erwartet. Kurz- vs. Langfristige Habituation: Dissoziationseffekte in Abh. vom ISI. Kurzes ISI: schnelle Habituation, langes ISI: langsame Hab. Davis 1970: 2-Sek-ISI, 16-Sek.-ISI. Auf beide Töne zunächst startle-R. Im Habituationstraining habituierte die 2-Sek-Gruppe schneller. Nach 1 Min Pause war Startle-R. der 2-Sek. Gruppe wieder auf Ausgangsniveau (= nur kurzfristige Habituation weil keine Assoziation mit Kontext =Dissoziation). Keine Startle-R. der 16-Sek. Gruppe nach Pause, Habituierung auf Niveau der 2-Sek-Grupper vor Pause (=langfristige Habituation), S erwartet wegen KontextStimulus-Assoziation. Überraschungstheorie (Wagner 1976) Wenn Ereignis im KZG gespeichert = nicht überraschend => schnelle Hab. aber kein Lernen von Assoziationen Nicht im KZG gespeichert = überraschend => keine/kaum Hab. aber Lernen von neuen Assoziationen Erklärt Ergebnisse von Davis 1970: Kurzes ISI: S permanent im KZG => schnelle aber kurzfristige Hab. kein Lernen weil keine Ass. zw. S und Kontext gebildet 2 Langes ISI: S bleibt nicht im KZG => langsame Hab. aber langfristig, Lernen weil Stimulus-Kontext-Ass. gebildet (hat also gelernt, deshalb keine OR nach Pause) (Ass. kann auch gelöscht werden Wagner 1976) Opponent-Process Theorie (Solomon & Corbit, 1974) Typischer Verlauf emotionaler Reaktionen: Reiz Höhepunkt, Abflachen auf konstantes Niveau, Umkippen nach Aussetzen des Reizes, Rückkehr zur Ausgangslage. Erklärung der O-P durch Addition zweier entgegen gesetzter Komponenten: a-Prozess: Setzt unmittelbar ein, Verharren am Maximum, abruptes Ende b-Prozess: setzt verzögert ein, Verharren am (dem a-Pr. gegensätzlichen) Maximum, allmähliches Ausklingen. Abflachen der ER wegen Einsetzen von b, wenn a aufhört nur noch b = Umkippen (Nachreaktion) Wiederholte Stimulation: a-Prozess immer gleich, b-Prozess früher, höheres Maximum, Verlängerung der Rückkehr zur Null-Linie => manifeste Reaktion deutlich geringer Funktion b-Prozess: Vermeidung affektiver Eskalation (Church et al., 1966: R von Hunden auf Serien von Schocks Initiationsreaktion lässt nach, Nachreaktion stärker. Epstein 1967: Veränderung der ER bei Fallschirmspringern, Nachreaktion= Erleichterung = stärker. Toleranz und Entzugserscheinungen bei Drogensucht bald keine positiven Emotionen mehr, fast permanente negative Nachreaktion, will die abschwächen => mehr Drogen) Klassische Konditionierung: (Ivan Pavlov) Teil 1 US: Reiz, der von sich aus bestimmte R reflexartig auslöst, bedarf keiner weiteren Bedingung = unkonditioniert (Futter) UR: R, die reflexartig von einem US ausgelöst wird (Speichelfluss) CS: erst neutral, US gepaart mit NS (und US löst UR aus) NS wird zum konditionierten Stimulus, löst dann CR aus wenn alleine präsentiert CR: durch CS ausgelöste konditionierte R, vorher nur OR aber wenn NS=>CS wird die OR auf den NS zur CR (Futter Speichel. Glocke Futter Speichel. Glocke Speichel) CER: Em. R, die aufgrund eines CS ausgelöst wird, der normalerweise keine solche R bewirken würde. Schneller Aufbau, langes Zeitintervall. (normalerweise andersrum, z.B. Lidschluss) = conditioned suppression: Unterbrechung Handlung, wenn CS neg. Emotion ankündigt (Z.b. stoppen Ratten Hebeldrücken, wenn Ton Schock ankündigt. Auch Geschmacksaversion mit Geschmack = CS und Vermeidung = CR) Physiologisch messbar mit elektrogalvanischer Hautreaktion (SCR = skin conductance response) Quantifizierung: Unterdrückungsindex(Q): Verhaltenshäufigkeit unter CS / (V.-häufigkeit unter CS) + (V.häufigkeit unter –‚ CS) Verhaltensrate (Hebeldrücken) nach CS verglichen mit V.-rate vor(ohne) CS .0 =perfekte Unterdrückung, .5 = keine Unterdrückung 3 Stärke der Konditionierung: Salienz des CS, Stärke des US, Kontiguität und Kontingenz (Vorhersagewert des CS) + biolog. preparedness Verzögerte K: CS lange vor US CR erst kurz vor US. Tier lernt, dass erst später reagieren muss Simultane K: CS+US gleichzeitig=> keine CR, kein Lernen Zeitliche K: Zeitlicher Abstand zwischen zwei US als CS, Vorhersagbarkeit d. Zeit Rückwärtsgerichtete K: CS nach US => kein Lernen Akquisition: asymptotisch, Geschwindigkeit/Steile des Anstiegs abh. von siehe oben (Stärke der K) Extinktion: Nur Verstrichen von Zeit reicht nicht, Löschung nur wenn CS ohne US. Dauert länger als Akquisition, zu Beginn einer neuen Sitzung Spontanerholung. Komplette Extinktion schwer/unmöglich Disinhibition: Inhibition der Inhibition durch das Auftreten eines neuen Reizes zusammen mit dem CS. Neuer Kontext während Löschung => CR wieder da. Wettkampf zwischen inhibitorischer und exzitatorischer Konditionierung Ersparniseffekt: schneller Wiedererwerb der CR nach Löschung CS- : CS- verkündet Ausbleiben des US schwächt oder verhindert CR = konditionierter Inhibitor („Gegenreiz“) Methoden/ Conditioned Inhibition Training: CS+ und CS- => kein US. CS+=>US Kombination des CS- mit einem bereits etablierten CS+ während der Extinktion. Verzögerte u. rückwärtsgerichtete Konditionierung. CS- kann nur etabliert werden, wenn vorher gelernt, dass er Ausbleiben eines US ankündigt. Nachweis eines kond. Inhibitors: Summations test: CS1 US, CS1/CS- nichts, CS2US, Test: CS2/CS- CR?? CR auf CS2 sollte sich durch CS- reduzieren/eliminieren Retardation: Wie lange dauert es, bis aus CS- CS+ wird? Sollte länger dauern weil erst inhibitorische Eigenschaften. Verzögerter Aufbau einer CR auf den CS-, wenn dieser anschließend zum CS+ wird. (CS1US, CS1/CS- nichts, CS- USwie schnell CR?? Zur Kontrolle den gleichen Reiz, der in Training CS- war als gleich als CS+ etablieren) Resistance to reinforcement: CS- verhindert Erwerb einer CR auf neuen CS+ CS- etablieren, dann CS-/CS2 US CR? Sollte verzögert sein. Zur Kontrolle die gleichen aber noch unkonditionierten Reize gemeinsam präsesntieren CR schneller. Generalisierung und Diskrimination: Konditionierung wird auf ähnliche Reize übertragen, Generalisierung der CR auf dem CS ähnliche Stimuli. Bei Worten bestimmt Alter Generalisierung: kleine Kinder generalisieren phonetisch, ältere semantisch (Razran 1949) Diskrimination bei simultaner Kond. mit CS+ und CS- : Erst Generalisierung (CR steigt bei beiden an), wenn Systematik erkannt CR auf CS- schwächt sich ab, auf CS+ stiegt weiter = Diskrimination Generalisierungsgradient: CR auf dem CS ähnliche Stimuli stärker, je ähnlicher dem CS (z.B. CS= 1200 Hz-Ton, auf ähnlich frequente Töne auch CR, aber schwächer/stärker je nach Ähnlichkeit. Bei exzitatorischem Reiz steiler Gradient, inhibitorisch: flacher Gradient (und natürlich umgekehrt: je unähnlicher dem CS- desto stärker die Reaktion, Unterschiede aber insgesamt schwächer als bei exzit.) 4 Experimentelle Neurose: Konflikt zwischen inhibitorischer und exzit. Konditionierung, Vorhersage unmöglich z.B. Hunde erst Standarddiskriminations-Experiment: Kreis als CS+, Ellipse als CS- , dann diese immer ähnlicher bis gleich Hunde verzweifen, neurotisch. Selbst wenn wieder unterschiedliche Reize können nicht mehr diskriminierten =exp. Neurose Phobien: (z.B. Watson & Raynor, 1920, Vater erschrickt Kind) US irgendwann mal (in Vergangenheit) mit CS gekoppelt CR=Furcht=>Angst (auch wenn kein US mehr) => Generalisierung. Eigentliche Ursache oft unbekannt. Vermeidungsverhalten verhindert Löschung! Aktive Löschung ist aber erforderlich. Außerdem schnell Spontanerholung. Desensibilisierung (Wolpe, 1958): Aufstellung einer Angst-Hierarchie + Entpsannungstechniken Löschung jeder Stufe. Weniger Stress + nachhaltiger als Flooding. Entspannung = CS- zur Inhibition von Angst (nicht gleichzeitig möglich!) Aversive Gegenkonditionierung; bei Sucht den „Versuchungsreiz“ mit aversiven Konsequenzen koppeln Vermeidungsverhalten. (Reicht dann oft schon der Geruch vom ehemaligen Versuchungsreiz um Vermeidung hervorzurufen = Generalisierung). Globale Nahrungsmittelaversion bei Chemo: Übelkeit durch Therapie wird automatisch mit vorher genossenen Speisen assoziiert (kond. Geschmacksaversion) Einführung eines markanten Geschmacks-CS vor Therapie verhindert Transfer auf normale Speisen Konditionierung des Immunsystems: Kopplung eines CS (Geschmacksreiz) mit Immunmedikament unter neutralen Umstände CS reicht auch in Stressreaktion, um Immunreaktion (CR) hervorzurufen Teil 2 Kontingenz: Bedingte Wahrscheinlichkeit des Auftretens des US. Vorhersagewert eines CS, Differenz zwischen P (US/CS) und (-) P (US/--‚CS) (=Basisrate) entscheidet über Lernen/Kond. (exzit., inhib., oder gar nicht) Zeitl. Kontinuität + Häufigkeit des CS => CR Anschaulich mit 4-Felder-Tafel/ Kontingenztafel P (US/CS) = a/ a+c P (US/--‚CS) = a/b+d P(--,US/CS) = c/a+c P (--,US/--,CS) = c/ b+d Mit a= wie oft US nach CS, b=Basisrate= US ohne CS, c=CS ohne US, d= nichts passiert Dissoziation von Kontingenz und Häufigkeit der Kopplung: (Rescorla 1968) Basisrate bei gleichbleibender P (US/CS) manipulieren (z.B. bei P=0,2 Basisrate unter/über diesem Niveau) Grad der Konditionierung immer am höchsten, wenn Basisrate <P(US/CS) (Unabhängig davon, wie hoch die absolute Häufigkeit der Kopplung – obwohl häufigere Kopplung auch einen etwas höheren Grad der Kond. bringt) => Gelernt wird aus der Differenz zwischen Paarung und nicht Paarung, nicht aus der bloßen Häufigkeit der Paarungen. 5 Überschattung: Keine Konditionierung eines (weniger salienten) CS1 in Gegenwart eines salienteren CS2 (CS1 alleine ist perfekter Stimulus, aber wenn in Kombi mit salienterem CS lässt nach) Übererwartung: Kombi zweier bereits etablierter (unabh. voneinander aufgebauter) CS mit gleichem (einem!) US führt zur Abschwächung der CR auf die einzelnen Stimuli. (Wenn CER etabliert kann sich auch Angst reduzieren) Blockierung: Kopplung eines neuen CS2 mit bereits etabliertem CS1 bei gleichem US => keine Konditionierung auf CS2 (weil CS1 schon Signalwert für US hat, blockiert jeden anderen Reiz, der vorhersagen will) - Kamin1968: Ton Schock. Licht Ton Schock. Licht ?? : Keine Konditonierung! KG: Licht Schock => Konditionierung! (liegt also nicht an mangelnder Salienz von L) -gilt auch für Extinktion: bereits auf CS1 gelernte CR wird nicht gelöscht, wenn CS1 in Extinktionsphase zus. mit CS2 (=CS-) präsentiert wird, weil Tier das Ausbleiben des US mit CS2 assoziiert CR auf CS1 bleibt. Ton Schock. LichtTon „nichts“ : Löschung?? Test: Ton => CR !!! (Angst) Licht blockiert Löschung (Stärke einer CR nicht proportional zur Häufigk. zeitl. benachbarter CS-US-Paarungen, siehe: Übererwartung (CR auf einzelne schwach trotz häufiger Paarung) Kontingenz nicht Häufigkeit Blockierung (keine CR auf CS2 trotz Paarung) Salienz des CS entscheidend Asymptote weil Überraschungseffekt entscheidend (nur Kontiguität reicht nicht) US-Stärke begrenzt Lerneffekt) Rescorla-Wagner-Modell: ∆ Vcsi = Ssci * ( A- ∑ Vcs) = Delta-Regel ∆ Vcsi : was wir erklären wollen Scsi * (A-∑cs) : wie wir das erklären ∆ = Differenz, Veränderung (in V) – bei einem Durchgang V= Erwartung eines US gegeben CS – entspricht der Stärke der CR nach einem CS S = Salienz des CSi(0 ≤ S ≤ 1) S=0 unbemerkt, kein Lernen. S=1 maximale Salienz, perfektes Lernen (Kond. nach nur einem Durchgang), wenn mehr als ein Reiz ist Summe ihrer Salienzen maximal 1 S beeinflusst Lernen/Konditionierbarkeit A = Stärke des US (0 ≤ A, d.h. keine „negativen“ US) – je mehr passiert desto höher A. Wenn US nicht präsentiert => A=0. A zeigt Intensität nicht Qualität des US! ∑ Vcs = Summe der US-Erwartungen aller gegebenen CS additives Modell (Licht 10 Futterpillen, Ton 5 Futterpillen => ∑ Vcs = 15) i = bezieht sich auf jeden einzelnen CS (A-∑ Vcs) = eigentliches Lernen, Summer der Erwartungen verglichen mit dem, was tatsächlich passiert => ist Differenz! (was gelernt werden kann) Mit Rescorla-Wagner: Akquisition: Asymptotischer Lernzuwachs mit Konvergenz auf A. V passt sich an die Stärke A des US an – Schnelligkeit abhängig von Salienz. Z.B. CS = Licht. Futter= US A = 100, S= 0,2 1) V für Licht noch 0. => ∆Vcsi = 0,2 * (100-0) = 20 (Große Diskrepanz zwischen V und A!) Im ersten Durchgang nicht gleich alles gelernt weil S immer ≤ 1 2) ∆ csi = 0,2 * (100-20) = 16 3) 0,2 * (100-36) = 12,8 => V nun 48,8 6 Erwartung für US immer höher Diff. immer kleiner V irgendwann (nahezu) Wert von A, siehe Asymptote. Extinktion: Asymptotische Abnahme mit Konvergenz auf Null, Lerneffekt mit umgekehrten Vorzeichen, wird nach unten reguliert,weil bei Nicht-Präsentation des US ist A= 0 Z.B. Licht = CS mit Vcs = 90, S= 0,2, A= 0 1) ∆ csi = 0,2 * (0-90) = - 18 D.h. nach 1. Durchgang Erwartung für US um 18 Einheiten reduziert 2) ∆ csi = 0,2 (0-72) = - 14, 4 Erwartung um weitere 14.4 reduziert auf 57,6 Etc. bis irgendwann Null angenähert. Am Anfang Abnahme der Erw. am größten. Überschattung: bei multiplen CS: Asymptote Vcsi = (Scsi/ ∑cs) * A (Gesamtsalienz verteilt auf alle CS jeder CS hat dann einen seiner Salienz entsprechenden Vorhersagewert. Jeder CS bekommt so viel ab wie Gesamtsalienzanteil) Wenn 2 Reize gleichzeitig präsentiert US jeder Reiz bekommt einen Teil der Erwartung Z.B. CS1= Ton mit S1 = 0,2 und CS2 = Licht mit S2= 0,5. Futter = A = 100 1) für CS1: ∆ V(T) = 0,2 * (100-0) = 20 Für CS2: ∆ V(L) = 0,5 * (100-0) = 50 D.h. die Gesamterwartung ist nach dem ersten Durchgang schon um 70 Einheiten verändert/gestiegen, somit Restdiskrepanz von 100-70 = 30 2) V(T) = 0,2 * (100-70) = 6 V (L) = 0,5 * (100-70) = 15 D.h. Gesamterwartung um weitere 21 auf insgesamt 91 gestiegen. = Diskrepanz nur noch 9. Licht viel höheren Signalwert, bekommt mehr vom „Kuchen der Erwartung“ / vom Gesamtsalienzanteil weil höhere Salienz (US-Erwartung auf CS1 nur um 20% angepasst ) D.h. T wird von L überschattet und nie so stark konditioniert wie L. Übererwartung: Gesamterwartung zweier (o. mehr) separat etablierte CS auf den gleichen US ist Summe der Einzelerwartungen (A1+A2) aber nur ein US folgt (ein A passiert) negative Differenz (A – (A+A)) Erwartung je nach Salienz der Einzelstimuli auf einzelne CS verteilt D.h. V für Einzelstimuli wird gesenkt, bis Summe wieder dem entspricht, was passiert ( neg. Diff. immer geringer, nähert sich A an) Z.B. Licht= CS1 mit V1=100. Ton = CS2 mit V2=100 US=Futter mit A=100 1) ∆V = S* (100-(100+100) )= -100*S Salienzaufteilung je nach Stärke des CS, siehe Überschattung. Wenn gleich salient: Einzelerwartungen auf Hälfte ihrer Ausgansstärke (also je V von 50) reduziert, bis ihre Summe wieder 100 entspricht (also V1=50, V2=50 ∑V = 100). Blockierung: Keine Abweichung von der Erwartung. CS1 kündigt bereits zuverlässig US an, hat schon vollständige Erwartung auf den US erworben, ein CS2 kann den gleichen US nicht mehr ankündigen, da nichts mehr gelernt wird/ der CS1 schon perfekt konditioniert wurde/ Zusammenhang schon erworben. Bleibt auf dem Niveau, wo vorher schon war, keine zu lernende Diskrepanz zw. Erwartung und Ergebnis (A ∑Vcs). Z.B. Licht ist CS1 mit V1 = 100 Futter ist US mit A = 100 Ton ist CS2 mit V2 = 0 S1 und S2 beide 0,3 Für CS2: ∆V = 0,3 * (100-100) = 0 Wenn L und T kombiniert = A-∑Vcs = 100- (100 +0) = 0 Keine Differenz, kein Lernen weil A = ∑ Vcs 7 Konditionierte Inhibiiton: Auf die Kombi von einem bereits etabliertem CS+ (Licht) und einem neuen Stimulus ( CS), z.B. Ton, folgt kein US (Futter). D.h. vorher wurde die Erwartung auf A schon voll gelernt, z.B. V(L)=90 Nun folgt aber kein US, daher A=0. Licht und Ton seien gleich salient, z.B. 0,2 Wenn beide gleichzeitig präsentiert werden, hat Ton noch keine Erwartung, also V(T) ist noch Null 1) ∆V = 0,2 * (0-90) = -18 D.h. nach diesem Durchgang wird die Erwartung auf jeden CS um -18 Einheiten reduziert: V(L) ist jetzt 72. V(T) ist dann -18 Tier muss im Laufe der Durchgänge lernen, dass die Kombination von L und T nichts vorhersagt. Da der Effekt Null ist und beide Stimuli gleich salient beide Erwartungen immer um gleich viele Einheiten nach unten korrigiert, bis der CS- so negativ ist, wie der CS+ positiv ist, sprich, wenn die Erwartungswerte der beiden sich aufheben, im Beispiel bei V(L) = 45 und V(T) = - 45 => ∑Vcsi = 0. Die Erwartung auf den Ton ist negativ ist Inhibitor geworden. Kontingenz: Kontingenzeffekte betrachten Einfluss von Basisrate, Basisrate = US ohne CS. R-W-Modell kann nur dann Veränderung vorhersagen, wenn CS auch anwesend, sonst kann nicht gelernt werden. Kontingenz trotzdem erklärbar mit R-W? Kontext. Konditionierung findet immer in best. Kontext K statt. Wenn CS nicht anwesend aber trotzdem US, assoziiert Tier dies auf Kontext K selbst ist guter, besserer Prädiktor für US als CS => K blockiert Konditionierung auf CS trotz häufiger CS-US-Paarungen bei nicht vorhandener Kontingenz (= gleich hohe oder höhere Basisrate= K als bester Prädiktor) CS+K US --,US --,CS+K 80 80 20 20 Zusätzliche Evidenz der Blockierung durch K liefert Einführung eines noch stärkeren CS2, der die Blockierung durch K aufhebt, indem er K-US-Ass. blockiert. CS2 kündigt immer US an ist der beste Prädiktor, sagt US besser vorher als K CS1+K CS2+K 80 80 --, CS+K 0 20 20 US --,US 0 CS2 hat Kontingenz von 1 (80:0) und ist damit besserer Prädiktor als K (160:40) Der CS1 kann sich nun wieder durchsetzen (wird nie gemeinsam mit CS2 präsentiert), da USK-Ass. durch CS2 blockiert. 8 Salienz und Konditionierbarkeit: Salienz auch lernabhängig/erwartungsabhängig Latente Inhibition: CS-Präexposition ohne US reduziert späteren Erwerb von CS-US Assoziation aber kein Inhibitionsphänomen: lediglich Salienz nimmt ab/ durch Prä-Exp. CS generell in Konditionierbarkeit reduziert (Reiz bekommt in folgenden Lerndurchgängen weniger ab) Gruppe1 : Ton alleine , Licht Schock, Test: Ton+Licht nichts Gruppe2: keine Präexp., Licht Schock, Test: Ton+Licht nichts Wenn Ton wirklich Inhibitor durch Präexp. müsste während Löschung Lernen in Gruppe 1 schneller gehen, ist aber nicht der Fall! Gruppe 2 lernt schneller, d.h. Präexposition reduziert Salienz / Konditionierbarkeit generell (in exzitatorischen und inhibitorischen Durchgängen), aber ist keine latente Inhibition! (= Salienzreduktionstheorie) S-S oder S-R-Assoziation? Sensorische Präkonditionierung: Z.B. 1. Ton + Licht (ohne US) 2. Licht Futter CR Test: Ton CR?? Ergebnis: in Testphase CR gezeigt! Spricht für S-S-Assoziation, weil Ton nie mit Futter gezeigt wurde, muss über Ton-Licht-Assoziation gelernt worden sein. Konditionierung zweiter Ordnung; 1. Licht FutterCR 2. Ton Licht (ohne US) Bald löst Ton CR aus, könnte also S-S sein (Licht mit Futter assoziiert) oder auch S-R (Licht mit Speichelfluss assoziiert) 3. Licht Schock CR Test: Ton welche CR?? Ergebnis: CR in Testphase ist Sabbern! D.h. es muss eine Ton-Speichelfluss-Assoziation gelernt worden sein in Phase 2, so dass US-Änderung auf Licht nicht die Reaktion auf Ton ändert. Ton ja nur mit Speichelfluss assoziiert, nie mit Schock. US-Abwertung: 1. CS US CR 2. US ab-/umgewertet, z.B. so viel Futter geben, dass Tier satt und kein Speichelfluss mehr Test: CS ?? Ergebnis: keine CR mehr ausgelöst – spricht für S-S –Assoziation/ CS-US-Verbindung, weil US umgewertet wurde/ CR hat sich verändert, bleibt aus wegen Veränderung der Bedeutung des US. (Wäre es S-R, dürfte CR bei Umwertung des US nicht anders ausfallen) D.h. es gibt S-S und S-R ! CS-US-Modulation, Occasion-Setting: Ein Reiz (OS) zeigt an, ob CS-US-Verbindung gilt oder nicht /OS verhindert oder moduliert. Auf OS alleine keine Reaktion – nur in Kombi mit anderen CS! Rescorla (1987): Exzitatorisch: CS1= grünes Licht, OS(FAC) = helles Licht, US= Futter Grünes Licht nichts Grünes Licht + OS Futter CR 9 Test: OS alleine: keine CR! Tier kann OS also nicht einfach mit CS assoziiert haben, sondern OS ist „Schalter“, der anzeigt, dass Ass. zwischen CS und US/UR gilt („nichts“ + „nichts“ löst CR aus!) = multiplikatives Schaltermodell (hier kein additives Modell mehr wie bei R-W) Inhibitorisch: CS= grünes Licht, US= Futter, OS (INH) = Geräusch 1)Auf CS wurde CR etabliert 2) CS+ OS nichts CS- ist hier also OS, der anzeigt; Assoziation zwischen CS und US gilt nicht mehr! Laut R-W hat nach inhibitorischer Kond. der CS+ eine Erwartung von + ½ A, der CS- eine Erwartung von – ½ A Testen R-W gegen occasion-setting: Nach kond. Inh. CS- wieder umkonditioniert, bis CS- = CS+ und alleine wieder CR auslöst Test: CS + OS (bzw. ehemals CS-, nun CS+) ?? Ergebnis: nichts passiert! Keine CR. Laut R-W- müsste CR sogar doppelt so stark sein weil Kombination additiv wirkt. Ergebnis spricht für OS-Modell, weil OS lediglich anzeigt, ob Verbindung zwischen CS und US besteht oder nicht. Die Umkonditionierung in einen CS- hat dabei keinen Einfluss auf die Schalterfunktion des OS. Kompensatorische CRs: CR Gegenteil von UR, eine der UR entgegen gesetzte Reaktion Bei Wiederholung nimmt Stärke der UR ab, weil CR sie kompensiert Kontextspezifische Drogentoleranz (Siegel 1975) z.B. abnehmender analgetischer Effekt von Morphium Ratten Morphium injiziert Schmerzempfindlichkeit sinkt Nach einigen Durchgängen: Schmerzempfindlichkeit nimmt wieder zu Spritze = CS, kündigt Morphium an CR = kompensatorisch = Gegenreaktion des Körpers auf Gift, Organismus will Wirkung des Morphiums (=Gift) ausgleichen also der UR entgegengesetzt = b-Prozess Bei Wiederholung b-Prozess immer stärker => bald stärker als Wirkung des Morphiums, daher erhöhte Empfindlichkeit. Wenn Salz statt Morphin löst CS (Spritze) ebenfalls kompensatorische CR aus, da aber gar kein Morphium injiziert => Schmerzempfindlichkeit noch höher. Paradoxer Drogentod: Aufhebung des Toleranzeffekts in verändertem Kontext. Kontext triggert bald Gegenreaktion, um Wirkung der Droge/Gift auszugleichen. In unvertrautem Kontext wirkt der US (Droge) viel stärker, weil neuer Kontext kein CS keinen Gegenprozess ausgelöst normalerweise nicht tödliche Menge wirkt tödlich Conditioned Opponent Theory (Schull, 1979) Erweiterung der Gegenprozesstheorie. B-Prozess wird konditioniert, kann schon durch CS ausgelöst werden, auch wenn gar kein US und damit kein a-Prozess anwesend. B-Prozess ist CR die durch mehrere Stiumuli ausgelöst werden kann. (a-Prozesse nicht veränderbar und nicht konditionierbar) Sometimes Opponent Process Theory (Wagner, 1981) Bei monophasischer UR: CR=UR Bei biphasischer UR (b-Prozess): CR= -UR Äquipotenz: Beliebigkeit des CS, nur syst. Kopplung nötig damit Konditionierung, kein sinnfälliger Zus.hang zum US nötig. Nimmt an, dass der gleiche CS in jeder Sit. gut bzw. schlecht ist 10 -Salienzunterschiede bedingen unterschiedl. starke Konditionierung Interaktion von CS und US (Garcia & Koelling, 1966) a)Tauben bekommen Geschmacks-Wasser und Licht-Geräusch-Wasser. Beide mit Gift versetzt meiden danach Geschmacks-Wasser Interpretation: Ratten haben Übelkeit mit Gift assoziiert b) wieder Geschmacks-Wasser und Licht-Geräusch-Wasser Boden unter Strom Danasch trinken Ratten nicht mehr aus Licht-Geräusch-Wasser haben Schock offenbar mit akustisch-visuellen Reizen assoziiert (aber nicht mit Geschmack) Damit Salienzerklärung ausgeschlossen, weil R in beiden Bedingungen dann gleich sein müsste widerspricht Äquipotenzannahme = CS-US-Interaktion! je nach CS ist CR leichter/schwerer zu konditionieren, d.h. erst wenn Beziehung zw. US und CS bekannt ist, kann Aussage über die Stärke der Konditionierung gemacht werden! (gleiche Stimuli in unterschiedlichen Kontexten unterschiedlich starke CR) Spezies-spezifische Muster der Konditionierbarkeit: Z.B. Wilcoxon et al. (1971): Blaues vs. säuerliches Wasser: Ratten assoziieren Übelkeit mit Geschmack, Wachteln assoziieren Übelkeit mit Farbe (= Aussehen) Preparedness: (Seligman 1970) Vorbereitete und gegenläufig vorbereitete Assoziationen bei verschiedenen Spezies (Z.B. hohe Löschungsresistenz der Angstkonditionierung auf Spinnen und Schlangen). Verschiedene Spezies sind unterschiedlich stark auf bestimmte Reize vorbereitet, biologisch festgelegte Verhaltensweisen speziestypische Assoziationen lassen sich leichter lernen als andere widerspricht Äquipotenz Evaluative Konditionierung: Valenzübertragung vom US auf den CS CS= neutraler Reiz , US= valenter Reiz Nach mehrfacher gemeinsamer Präsentation verändert sich Bewertung des CS in Richtung der Valenz des US Valenz des CS= AV, Valenz des US = UV (Bei KK war CR AV, scheint hier nebensächlich. Bei KK hatte CS Signalwert für US, war also UV) CS nicht Signal, sondern Quali des CS selbst wird verändert. Z.B.Razran (1938): plolitische Slogans im Rahmen einer freien Mahlzeit vs. in stinkendem R. Wort-Wort-Paarungen: pos. Worte mit neutralen (z.B. Länder, nicht-Worte) Bild-Bild-Paarungen: symph/unsymph. Gesichter mit neutralen Zeichen-Wort-Paarungen: Griechische Buchstaben mit valenten Worten Figur-Wort-Paarungen Aromen-Geschmack/Geruch: Teesorte (durch Riechen) hinterher anders bewertet, je nachdem ob in aufgegossener Form mit Zucker oder Tween getrunken Nicht beschränkt auf Valenzbereich: Geschlechtskategorisierung bei Babies (Meersmans et al., 2005) Babyfotos männlich/weiblich eingestuft, je nachdem ob vorher mit eindeutig männl/weibl. Präsentiert Geschmacks/Geschmacks-Paarung 11 Funktionscharakteristika: Löschungsresistenz: Valenz des CS bleibt erhalten, auch wenn CS ohne US (geht nicht um Signalwert des CS) Kontiguität statt Kontingenz: EC tritt auch ohne Kontingenz auf, Basisrate irrelevant, rückwärtsgerichtete und simultane Konditionierung möglich nur zeitliche Nähe + Paarung an sich wichtig! Bewusstheit des CS-US-Zusammenhangs: - demand - Effekte? Werden eliminiert durch Zusatzaufgabe (8-stellige Ziffer) oder Maskierung des US (CS direkt präsentiert) trotzdem oder sogar stärkere EC-Effekte - Aufforderung, auf CS-US-Zusammenhang zu achten verhindert/eliminiert EC spricht gegen demand-Effekte - kein Zusammenhang zwischen Bewusstheit und EC (egal ob VP sich erinnert oder nicht) - Indirekte Messung durch affektives Priming bestätigt Valenzübertragung (Diaz et al., 2005): CS als Prime, valentes Wort als target indirekte Messung der CS-Valenz nach EC: VP soll Valenz des target zuordnen kürzere RT bei valenzkongurenten Stimuli- Paarungen. D.h. (automatische) Bewertung wird an Verhalten der VP (Reaktionszeitparadigma) abgelesen, ohne dass dieses Bezug nimmt zu dem, was eigentlich gemessen wird. (VP kann unmöglich sozial erwünscht reagieren, Bewertung aber dennoch messbar). Theoretische Erklärungsansätze für EC: Rekategorisierung des CS (Davey, 1984; Field & Davey 1997): Paarung mit US macht die US-ähnlichen Merkmale des CS salient, ähnliche Merkmale werden hervorgehoben. EC v.a. bei ähnlichen CS/US Paarungen dem widerspricht randomisierte CS-US-Zuweisung und cross-modales EC (verschiedene Modalitäten von CS und US, Essen/Slogans) Referentielles Lernen bei EC (vs. Erwartungs-, Signallernen bei KK) Bayens et al., 1992: CS aktiviert automatisch kognitive Repräsentation des US – aber ohne Erwartung des US. Referenz= Bezug durch gemeinsame Paarung mit US entwickelt CS Bezug zu diesem werden fortan kognitiv gemeinsam repräsentiert. Wird auch hervorgerufen, wenn CS alleine. = Missattribution von Eigenschaften des US auf den CS (z.B. Klauen, oder Ratte „liebt“ Klick-Geräusch des Futterautomaten weil Referenz zu Futter) Einstellung und Vorurteile: (Erwerb automatischer Bewertungn von Gruppen /Personen) „Spreading attitude effect“: Indirekter Erwerb von Einstellungen ohne direkten Kontakt zum Einstellungsobjekt durch sensorische Präkonditionierung. Walther (2002): Neutrale Gesichter: N1-N5 Valente Gesichter: US Vorphase: EG: N1 mit N2 KG: N1 mit N3 Konditionierungsphase: N2 mit US (für EG und KG) N2 übernimmt Valenz von US Test: welche Valenz hat N1? Ergebnis: in EG EC-Effekte! (obwohl N1 nie mit US gepaart wurde) erworbene Valenz des N2 muss sich wg. Sens. Präkond. auf N1 übertragen haben = spreading attitude effect 12 (In KG keine Valenzänderung von N1 da N3 nie mit US gekoppelt und hier keine Ass. zwischen N1 und N2). Eigengruppenfavorisierung, impliziter Selbstwert: „Name letter“ Effekt (Nuttin) Manche Buchstaben bewerten wir positiver, z.B. Initialien = Valenzübertragung (wg. Eigengruppe) „mere ownership"Effekt; (Feys, 1995) Gegenstände, die mir gehören, bewerte ich deshalb positiver. Z.B. Wert einschätzen von geschenkt bekommenen Gegenständen vs. Wert von Dingen, die VP nicht gehören. Ergebnis: Wert höher eingestuft, wenn VP der Gegenstand gehörte (wg. Implizitem Selbstwert, Übertragung von eigener Valenz = Selbstwert auf neutrale Objekte) Wechselseitige Beeinflussung von Äußerungen und Personen Persuasion/Überredung Person = US, Botschaft = CS Wenn Person sympathisch ist positiv valent übertägt sich auf Botschaft/Inhalt eher akzeptiert. Glaubwürdigkeit von Aussagen/Einschätzungen als Funktion der Sympathie der Quelle der Info. Moderation durch Verfügbarkeit kognitiver Ressourcen: wenn groß VP denkt mehr nach, geringere Beeinflussung durch US. Wenn gering umgekehrt (VPn verlassen sich auf heuristische cues weil leichter zugänglich als Inhalt der Botschaft) Äußerungen von Botschaften:“kill-the-messenger“ Effekt : Botschaft = US, Person = CS Bei Überbringung einer negativen/positiven Nachricht wird Überbringer hinterher entsprechend negativer/positiver bewertet. Werbepsychologie: Kopplung von Markenprodukt mit positivem US (z.B. junge, attraktive Person, entspannte Atmosphäre, Natur) verändert dauerhaft die Einstellung ggü. diesem Produkt weil gemeinsame Repräsentation Bessere Effekte unter Ablenkung. Werbung nebenbei/ in Infofenster (kogn. Ressourcen von etwas anderem beansprucht) Indirekte Einsellugnsänderung wenn sich Valenz des US im Nachhinein ändert/wenn sich die Bewertung der mit dem Einstellungsobjekt assoziierten Person ändert/USUmwertung „brand extension“: Wenn Marke in einem Bereich schon positives Image hat überträgt sich wahrscheinlich auch auf neue/andere Produkte derselben Marke (Markenname erweitert auf anderen Produktbereich) Operante Konditionierung I Operantes vs. respondentes Verhalten: Respondent: reflexartig, Reflex auf Reiz, unwillkürlich, automatisch, stimulusbezogen, erfahrungsbedingte Veränderung in reizbezogenem Verhalten, Reiz-R-Verbinung, starr, fix (weil automatisch), Reflex als AV Operantes Verhalten: willkürlich, spontan, konsequenzbezogen, an Folgen orientiert, in Zukunft gerichtet/bezogen, erfahrungsbedingte Veränderung in operantem Verhalten, Person kann entscheiden, wie reagieren will, experimentell, um etw. hervorzurufen, instrumentell, zwar durch Sit. ausgelöst aber nicht festgelegt, flexibel, es wird auf frühere Erfahrungen zurückgegriffen, diese nehmen Einfluss auf Willkürverhalten. 13 - oft beide zusammen gezeigt. Annahme der Lernpsychologie: Einmal gemachte Erfahrungen verändern Verhaltensweisen in der Zukunft Es gibt Willkürverhalten, aber ist nicht mit Mitteln der KK erklärbar Nur weil kein offensichtlicher Stimulus da ist, der vor dem Verhalten auftritt, heißt nicht, dass das Verhalten nicht vorhersagbar ist Gesetz des Effekts: Nicht Verhalten per se sondern Verh. in best. Sit. wird wahrscheinlicher. Wenn Reaktion/Verh. in einer Sit. von positiven Konsequenzen gefolgt/begleitet stärker mit dieser Sit. verbunden bei erneutem Auftreten des Stimulus/ der Situation mit erhöhter W.keit erneut gezeigt. Wenn Verh. in Sit. von negativer Konsequenz gefolgt das nächste Mal in der gleichen Sit. mit geringerer W.keit gezeigt weil neg. Folgen die Ass. mit der Situation schwächen. Je stärker pos/neg Konsequenzen desto intensiver ist Stärkung/Schwächung der Assoziation. D.h. es gibt Rückkopplung über die Konsequenzen und damit eine Ass. zwischen Sit. und Verstärker. Stop-Action-Prinzip: Stärkung einer Verhaltensweise (Körperhaltung, Muskelbewegung) im Moment des Eintretens der positiven Konsequenz Kontiguitätsprinzip. Dadurch erhöhte W.keit für erneutes Auftreten. Evidenz: Guthrie & Horton (1964). Katze in Käfig mit Hebel in Mitte, der einzige Möglichkeit zum Rauskommen war (und gleichzeitig Fotoapparat Bewegung aus dem unmittelbaren Moment aufzeichnen) Ergebnis: Verh. erst unterschiedlich, dann immer homogener. Bewegungsabfolge zum Hebeldrücken intraindividuell immer auf die gleiche Weise, aber von Katze zu Katze verschieden. Erklärung: zufälliges Verh. vom wurde durch Öffnen der Tür verstärkt Katze zeigt genau dieses dann immer wieder Abergläubisches Verhalten: (Skinner 1948) Verhalten tritt regelmäßig auf auch wenn nicht- kontingent verstärkt. Tauben bekommen unregelmäßig Futter, müssen nichts dafür tun, aber bald bestimmte, regelmäßige Verh.weise etabliert nach stop-action-Prinzip. Aber Taube glaubt nur, dass etwas für Futter tun müsste das Verh. wird verstärkt, das zufällig gerade vor Futter gezeigt wird, aber Futter kommt auch so = Aberglaube. Probleme des mechanischen Lernprinzips: Hohe Variabilität im gelernten Verhalten (Muenzinger 1928) Meerschweinchen Salatblat: hohe Variabilität im Verhalten Funktionale Generalisierung. Lashley 1924: Meerschweinchen nehmen sofort den richtigen, gelernten Weg im Labyrinth, wenn dieses unter Wasser gesetzt wird – kein neues Lernen, obwohl andere Bewegungen Es werden Verhaltenseffekte, nicht einfache Muskelbewegungen gelernt (auf höherer Ebene). Flexibilität und Anpassung Shaping: Aufbau gewünschter Verhaltensweisen durch Verstärkung von Rudimenten, die in richtige Richtung gehen. Sukzessive Erhöhung des Kriteriums für Verstärkung 14 = Erweiterung des Anwendungsbereichs der OK für Verhaltenssteuerung, weil Verhalten aufgebaut werden kann, das spontan nicht auftritt, kein Reflex ist z.B. in Therapie bei Kindern mit Sprachschwierigkeiten: beginnt mit Formung der Lippen von außen nachmachen verstärkt. Dann müssen von alleine machen verstärkt etc. Prompting: Z.B. erst manuelle Unterstützung einer Verh.weise, die sonst nicht auftreten würde, „erzwingen“ Verstärkung wahrscheinlicher, dass Verh. von selbst gezeigt wird. = Stimulus, der Wkeit des Auftretens von gewünschtem Verh. während Verhaltensmodifikation erhöht, wird im weiteren Verlauf des Trainings immer seltener eingesetzt. Fading: Ausschleichen der Unterstützung, des Prompt. Wenn gewünschte R spontan auftritt, Unterstützung reduziert – eliminiert. = Verfahren zur Verhaltensmodifikation, bei dem ein Prompt langsam verringert wird dem Lernenden wird beigebracht, Verh. ohne Prompt zu produzieren. Freie operante Konditionierung: Geht nicht um Einzelverh. sondern allgemeine Verh.rate. von Skinner entwickelt. Operante R kann jederzeit und beliebig wiederholt auftreten, solange Individuum in Versuchskammer (Skinnerbox). Analyse wiederholbarer R erlaubt kontinuierliche Analyse von Verhaltensintensitäten. Reaktionsrate = AV, geht also nicht um Einzelverhalten sondern um Intensität. Sonst war Reaktionslatenz AV. Ist einfacher als herkömmliche Methoden, spart Ressourcen, Tiere können wiederholt reagieren, ohne dass VL einschreiten muss (im Gegensatz zu kompliziertem Problemkäfig, Labyrinth o.ä. ). Durch Kontext kann Tier spontan nur die gewünschte R zeigen, außerdem kann R jederzeit auftreten. allgemeine Gesetze können abgeleitet werden Beispiel: Rate des Pickens auf Scheibe von Tauben, die Fläche zeichnet Rate auf Kontingenzeffekte: auch bei OK ausschlaggebend (analog zur KK), auch bei nicht-perfekter Verstärkung. Bedingte Wahrscheinlichkeit wird verglichen mit Basisrate. Liegt nicht an absoluter Häufigkeit des Verstärkers Untersuchung zur Trennung von Effekten der Verstärkungshäufigkeit und Kontingenzeffekte (Hammond, 1980) 1) R in 5% der Fälle von Verstärker gefolgt (Basisrate noch geringer) 2) R ebenfalls in nur 5% von Verstärker gefolgt, aber Verstärkerhäufigkeit generell hochgefahren (= Erhöhung Basisrate) Kontingenz 0 Ergebnis: Auch bei nicht-perfekter Verstärkung (1) wird gelernt, solange die Basisrate geringer ist. In Bd. 2 (Verstärkerhäufigkeit höher) Reaktionsniveau fast 0, nichts gelernt. Folgt dann wieder Bd. 1 R sofort wieder gezeigt weil Vorhersage für Verstärkung. Schon auf geringe Kontingenzänderungen sensibel. Dreifachkontingenz: Kontingenz von Reaktion, Verstärker und diskriminativem Hinweisreiz. Diskriminative Hinweisreize (D) : erlauben Analyse der Stimuluskontrolle weil op. Verh. (Verstärkung) stark situationsbedingt. D zeigt an, ob Sit. da ist, in der sich best. Verhalten lohnt. D steuern Verh., legen aber nicht fest. P (Verstärker/ Reaktion, D) > P (Verstärker/ keine Reaktion, D) Verlauf: Probleme der Verhaltenskontrolle im Alltag v.a. bei Extinktion weil unbekannte Verstärker und mangelnde Kontrolle über Verstärker – selbst wenn in einem Kontext (zu Hause) gelöscht kann in anderem (Schule, peers) wieder auftreten. Konditionierte Verstärkung: Primäre Verstärker: biologisch angelegte Wirkung 15 Sekundäre Verstärker: zunächst neutrale Reize, die Verstärkungsfunktion erwerben. Funktioniert durch systematische Kopplung mit primärem Verstärker, weil der sek. dann den prim. ankündigt. Z.B. Hebel vor Futter. Wirkt indirekt. Muss immer mal wieder von primärem gefolgt werden. Generalisierte Verstärker: Sekundäre Verstärker, die viele verschiedene primäre ankündigen (z.B. Geld), auch token reinforcement: haben Überbrückungsfunktion, halten Motivation aufrecht. Effizienter als primäre V weil damit verschiedene, mehrere primäre Verstärker hergestellt werden können, oft kann VP sogar wählen, selber kontrollieren, gegen was token eintauscht (z.B. für Geld: Haus, Kleidung, Wärme etc.) Funktion externer Reize: Feedback: zeigt an, ob VP auf dem richtigen Weg. Sit. als Feedback/Rückmeldung, ob Verhalten richtig oder falsch. Z.B. Linie blind (?) besser zeichnen wenn weiß, dass richtig. Steuerungsfunktion: z.B. Diskriminative Hinweisreize, zeigen an welches Verhalten in einer Sit. angebracht/ erfolgversprechend ist, Verstärkungsmöglichkeiten werden signalisiert. Z.B. zeigt Licht-an, dass Wahrscheinlichkeit für Futter gegeben, Licht aus: kein Futter Überbrückungsfunktion: Motivation aufrecht halten, z.B. durch token. Wenn Verh. länger gezeigt werden muss, bevor Verstärker kommt. Z.B. Münzen erarbeiten beim Affen erhält gewünschtes Verh. (Hebel) so lange aufrecht, bis tokens eintauschen kann. Effiziente Konditionierung: Aufbau komplexer Verhaltenssequenzen = Verhaltensketten Chaining: Verkettung von Verh.weisen mithilfe konditionierter Verstärkung. Stimuli vermitteln zwischen den einzelnen Verhaltenselementen. Reize haben dabei Doppelfunktion: Steuerungsfunktion als diskr. Hinweisreize für nächsten Schritt und konditionierte Verstärkung des vorangegangenen Verhaltens (selbstverstärkender Charakter). Primärer Verstärker erst nach letztem Verh.element. Z.B. Ratten in Parcours mit Leiter, Kette etc. Rückwärtsverkettung: Am Ende, mit Aufgabe vor primärem Verstärker, beginnen und dann immer einen Schritt zurücksetzen, so dass Zwischensituation ein sekundärer Verstärker und gleichzeitig Hinweisreiz wird. Z.B. 1.bringt Ratte bei: Hebel drücken Futter. 2. setzt Ratte weiter weg, wenn Hebel sieht: Hebel wirkt als Hinweisreiz und Verstärker für notwendiges Verhalten davor, z.B. Leiter hochklettern. Vorwärtsverkettung: Am Anfang beginnen, Verstärker müssen eingebaut werden, weil Sit./ Stimulus noch keine Verstärkerqualität, muss Verh. oft erstmal „erzwingen“. Wenn ein Schritt gelernt: eingebaute Verstärker wieder ausbauen. Schritt 1 gelernt nächster hinzugefügen etc. Rückwärts effizienter weil schneller funktioniert, schneller gelernt wird, keine Verstärker ein – und dann wieder ausgebaut werden müssen und erste Reaktionen nicht erzwungen werden müssen. Außerdem keine Hinweisreize bei vorwärts. Allgemeingültigkeit der OK: „The misbehavior of organisms“ (Breland & Breland, 1961) Grenzen der OK bei biologisch angelegtem Verhaltensrepertoire der Organismen. 16 Erwünschte Verhaltensweisen nach anfänglichen Erfolgen werden ersetzt durch unnötiges (sogar hinderliches), nie unverstärktes Verhalten Z.B. nachdem schon gelernt: Schweine vergraben Münzen, Waschbären reiben aneinander, Huhn zeigt Kratzbewegungen vor Hebel. Harter, aggressiver Charakter Erklärung: sind Verhaltensweisen, die Tiere in Natur bei/vor Konsum zeigen. Münzen als sekundäre Verstärker werden speziestypisch wie primäre behandelt. Instinctive drift: „learned behavior drifts towards instinctive behavior“. Gelerntes Verhalten verdrängt weil Auftreten speziestypischer, explorativer und appetitiver Verhaltensweisen im Kontext regelmäßiger primärer Verstärkung. Implikation für OK: es können nicht beliebige Verh.weisen operant kond. werden, muss am biologisch angelegten Verhaltensrepertoire des Organismus ansetzten, wird durch diese beschränkt. Autoshaping: (Paradigma des conditioned key pecking) Brown&Jenkins, 1968 Tauben picken auf Lichtfeld, das vor Futter leuchtet, obwohl kein op. Verhalten für Futtererhalt nötig. Ursprüngliche Erklärung: abergläubisches Verhalten (Schauen- Annähern- Picken, sukzessiv verstärkt) Widerlegt: keine systematische Annäherung. Zeigt z.B. Rachlin, 1969 mit Fotos: Tauben zeigen unregelmäßiges (!) Verh., mal Picken, dann nicht, Hinschauen oder nicht… Williams & Williams, 1969: Picken selbst dann, wenn systematisch nicht oder verzögert verstärkt wird Erklärung mit KK: Lichtfeld = CS, Futter = US, Picken = CR. Wenn CR etabliert, auch gezeigt, wenn nur CS und kein Futter. Zumindest wenn Kontingenz. Ass. zwischen Licht und Futter, nicht Picken und Futter. Evidenz für KK: Durchlach 1986: CS-US-Kontingenz variiert (z.B. Viel Futter ohne Licht vorher) Autoshaping nur, wenn Licht Signalwert hat, also bei Kontingenz. Jenkins & Moore (1973): Systematische Pickunterschiede je nach Verstärker, d.h. Form der CR abhängig von der Art der UR. Gruppe1: Futter als US, Gruppe 2: Wasser als US Ergebnis: Gruppe 1 Annäherung mit Schnabel auf, Augen zu, Gruppe 2 Schnabel fast zu, Augen auf. Entspricht dem natürlichen Verhalten der Tauben bei Futter/Wasseraufnahme = sign tracking. Ändert sich je nach Quali des Reizes R entspricht der Situation = stimulusbezogen = KK Operante Konditionierung II Kontinuierliche vs. Intermettierende Verstärkung Humphreys paradox: selten/intermettierend verstärktes Verhalten ist in Extinktionsphase noch lange stabil. = partial-reinforcement Effekt: erhöhte Löschungsresistenz nach seltenerer Verstärkung. Häufiges oder 1:1 verstärktes Verh. verschwindet während Extinktion sehr schnell. Liegt an Diskriminationshypothese: (Mowrer & Jones, 1945) Bei unregelmäßiger Verstärkung ist Umstellung auf Löschung für Organismus nur schwer zu erkennen, weil wenn vorher nur selten verstärkt ist Wechsel zunächst kaum zu bemerken. Wenn kontinuierlich verstärkt fällt sofort auf. Z.B. Glücksspielautomat: wirf immer wieder Geld rein, auch wenn lange nichts gewinnt, weil ist normal dass nicht immer gewinnt. Evtl. sogar häufiger je länger keine Verstärkung kam. (Anders bei defektem Getränkeautomat) 17 Standard-Verstärkerpläne: Fester Quotenplan: (fixed ratio) Verstärkung nach jeder n-ten Reaktion. Bei FR-10 jede 10. R verstärkt. Z.B. Akkordarbeit in Fabrik Variabler Quotenplan: (variable ratio) n variiert zufällig um einen Mittelwert, erforderliche R Anzahl variiert von Verstärker zu Verstärker. Bei VR-10 Verstärkung nach 7,11,9…. Reaktionen. Z.B. funktionierender Glücksspielautomat, Lotto. Fester Intervallplan: (fixed interval) Erste Reaktion nach einem Zeitintervall, das nach der letzten Verstärkung beginnt, wird verstärkt. Hängt von verstrichener Zeit und folgender Reaktion ab.Eine einzelne R nach festem Intervall bringt Verstärker. Bei FI-10 10 Sek. nach der Verstärkung wird die nächste bereitgestellt – muss durch R aber erst abgeholt werden! (In Zeit bis zur R stoppt die Uhr). D.h. nicht automatisch alle 10 Sek. Verstärker, neues Intervall beginnt erst nach Einlösen der Verstärkung steht nach 10 Sek. zur Abholung bereit. Intervall an sich ist time-out, reagieren hier bringt nichts. Z.B. verpasster Bus, Fahrplan Variabler Intervallplan: ( variable interval): Intervall variiert zufällig um einen Mittelwert. Bei VI-10 :Zeitintervalle 7, 10, 9s ab nach der letzten Verstärkung. Die Zeit zwischen Verstärkerbereitstellung variiert von Verstärker zu Verstärker. Z.B. besetztes Telefon. Charaktersistische Kurven der kumulativen Verhaltenshäufigkeit (für die 4 Standardverstärkerpläne): Papier über Walze, Stift bei jeder R weiter vor Kurve (wenn keine R = Linie). FR: Kurze Pause nach Verstärkergabe (Delle= Nachverstärkerpause), abrupter Übergang von Pause zu neuer R, linearer Anstieg bis zur nächsten Verstärkung. Stop-and-go. VR: Keine Pause nach Verstärkung. Steil, konstanter Anstieg FI: Nach Verstärkergabe weniger Reaktionen, gegen Ende des Intervalls steigt Reaktionsgeschwindigkeit/häufigkeit, etwas flachere Kurve als bei Quotenplänen. VI: keine Pausen, Reaktionen erfolgen gleichmäßig, Kurve flacher als alle anderen: am wenigsten R pro Zeit. Nachverstärkerpausen im festen Quotenplan: Hypothesen: Sättigung, Ermüdung, Verstärker-Distanz Zunahme der Pausen bei hoher Quote widerspricht Stättigungshypothese Multiple Verstärkungspläne: Kombination von 2 FR: FR-10 und FR-100. Blau kündigt 100, rot 10 an. Ergebnis: Pause lang bei blauem Licht und kurz nach rotem, egal welcher Plan davor war. Widerspricht Ermüdung. Pause unabhängig von vorhergehender aber abhängig von bevorstehender Quote = Beleg für Verstärker-Distanz –Hypothese Experimentelle Analyse von Verstärkerplänen: Gleichmäßigere Verteilung der Reaktionen über die Zeit bei variablen Plänen: VR: Nach jeder Reaktion ist Verstärker gleich wahrscheinlich, systematische Pausen nicht sinnvoll/nicht erfolgversprechend. Quote für nächste Sequenz nie vorhersagbar, Distanz zum nächsten Verstärker schwer einzuschätzen keine systm. Pausen nach Verst.-Distanz-Logik. aber längerfristig umso schneller Verstärker je häufiger reagiert wird. VI: Verstärker kann jeden Moment bereitgestellt werden, daher lange Pausen nicht vorteilhaft. Gleichbleibende Reaktionsrate stellt sicher, dass Uhr in Gang bleibt/ dass zumindest Verstärker gleich abholt wenn bereitgestellt. Höhere Raten bei VR-Plänen, Vergleich der Reaktionshäufigkeit in VI- und VR-Plänen: 18 Baum (1993): Zum Vergleich der beiden müssen Verstärkerhäufigkeiten pro Zeit gleich sein. Erst unterschiedliche VR realisiert und geschaut, wie hoch Reaktionsrate dazu VI kreieren mit der gleichen Verst.häufigkeit pro Zeit. (Z.B. 100x /Minute 100 Verstärker entspricht VR1 kann entsprechenden Intervallplan erstellen) Ergebnis: in VI weniger reagiert. Molekulare Erklärungsansätze: Interresponse Time Reinforcement Theory Die zwischen den Reaktionen liegenden unterschiedlich langen Zeitintervalle werden je nach Plan mit unterschiedlichen Wahrscheinlichkeiten verstärkt. Beim VI folgt auf lange Pausen mit erhöhter Wahrscheinlichkeit ein Verstärker, da schon länger gewartet wurde, Pausen erhöhen Wkeit., dass Verstärker bereitgestellt wurde. = selektive Verstärkung langer Interresponse-Intervalle = Differentielle Verstärkung langer Reaktionsintervalle bei VI. –> deshalb weniger R/Zeit bei VI Bei VR kein Zusammenhang zwischen Pausen und Verstärkerwahrscheinlichkeit, da einzig Reaktionsrate zählt. Kurze Pausen führen sogar häufiger zur Verstärkung, weil Verhalten geblockt auftritt insgesamt deutlich mehr kurze Pausen als lange Wkeit auch höher, dass Belohnung in Block und nicht nach langer Pause kommt. = differentielle Verstärkung kurzer Pausen(Kurze IRTs deshalb gestärkt, weil häufiger vorkommen – häufiger verstärkt) (Klausur) Molarer Erklärungsansatz: Response-Reinforcer Correlation Theory VI: Korrelation zwischen Reaktionsanzahl pro Zeit und Verstärkerhäufigkeit pro Zeit ist nahezu Null (ab dem Moment, wo alle bereitgestellten Verstärker zuverlässig abgeholt werden), weil häufigeres Reagieren in festgesetztem Intervallplan keine zusätzlichen Verstärker bringt, Verstärkerhäufigkeit nicht abhängig von Reaktionshäufigkeit pro Zeit. Tier lernt langfristige Beziehung zwischen Reaktions- und Verstärkungsrate (zw. durchschnittlicher Reaktionsrate und Gesamtverstärkungsrate) VR: lineare Beziehung zwischen Reaktions- und Verstärkungsrate. Je mehr reagiert desto mehr Verstärker, Korrelation 1. Operante Konditionierung III Positive Verstärkung: Verhalten mit Auftreten des Stimulus gekoppelt Negative Verstärkung: Kopplung eines Verhaltens mit Ausbleiben eines Stimulus/ der (aversiven) Konsequenz, erhöht dessen Auftrittswahrscheinlichkeit. Aversiver Reiz beendet nachdem Verhalten gezeigt wurde -Laborexperiment (Solomon & Wynne, 1953): Hund in shuttle box, Ausbleiben des Schocks bei Springen über Wand erhöht Auftrittswahrscheinlichkeit für Springen Verstärkung von Springen durch Ausbleiben des aversiven Reizes. -Alltagsbeispiel: Nörgeln/ Schreien von Kind hört auf (Ausbleiben des Stimulus) wenn Mutter nachgibt Nachgiebiges (inkonsequentes?) Verhalten der Mutter verstärkt. Positive Bestrafung: Kopplung eines Verhaltens mit aversivem Reiz / mit Auftreten eines Stimulus reduziert Auftrittswahrscheinlichkeit für das Verhalten. Z.B. Schwatzen im Unterricht wird von Strafarbeit gefolgt reduziert Wahscheinlichkeit für erneutes Schwatzen im Unterricht. Negative Bestrafung: Kopplung eines Verhaltens mit Ausbleiben eines Stimulus (eines positiven Reizes) reduziert dessen Auftrittswahrscheinlichkeit. Entzug positiver Verstärker, time-out, Auszeit. 19 Z.B. bekommt unartiges Kind kein Abendessen => reduziert Wahrscheinlichkeit für unartiges Verhalten in der Zukunft Flucht – und Vermeidungsverhalten: Flucht: Fliehen vor bereits eingetretenen aversiven Konsequenzen. Z.B. flieht Hund zu Beginn der Durchgänge erst in andere Kammer, nachdem Schock schon eingetreten ist. Aufrecht erhalten durch negative Verstärkung, beenden des Schocks Springverhalten verstärkt. Vermeidung: Ausweichen vor negativer Konsequenz, bevor diese eintritt bestimmte Verhaltensweisen entwickeln, so dass es gar nicht erst zum Auftreten des aversiven Reizes kommt bzw. dieser nicht zu spüren ist. Z.B. springt Hund bald schon in andere Kammer, und bevor die 10 Sek. zwischen Licht-aus und Schock verstrichen sind u. entgeht so dem Schock. Auch hier wegen negativer Verstärkung weil neg. Konsequenz ausbleibt. Effektivität von Bestrafung: -Intensitäts- und Kontiguitätseffekte -Bestrafung ist parasitär zur Verstärkung: Verhalten muss erst gezeigt werden, damit es bestraft werden kann. Damit Bestrafung Verhalten unterdrücken kann, muss das Verh. vorher regelmäßig aufgetreten und damit vorher regelmäßig verstärkt worden sein. Bestrafung arbeitet gegen die Verstärkung, den pos. Anreiz. Damit ist jede Bestrafungssituaiton eigentlich Bestrafung plus Verstärkungssituation. (Ohne vorherige Verstärkung keine Bestrafung) Löschung von Verh. durch Bestrafung langfristig nur sinnvoll, wenn anstelle des zu löschenden Verh. alternatives Verh. aufgebaut wird, das den gleichen Verstärker bringt. Sonst würde immer wieder kommen, wenn Bestrafung wegfällt, weil pos. Anreiz ja immer noch erstrebenswert. Spezifische und unspezifische Effekte von Bestrafung auf Verhaltensunterdrückung. Church et al., 1970 Gruppe 1 + 2: Hebeldrücken + Ketteziehen etabliert Kette aus Käfig raus, nur noch Hebeldrücken möglich Gruppe 1: Hebeldrücken kontingent bestraft Gruppe 2: zufällig variierte aber gleich hohe Anzahl an Schocks wie Gruppe 1, also nichtkontingent geschockt Kette wieder in Käfig, keine Schocks mehr Ergebnis: beide Gruppen ziehen weniger an Kette = unspezifischer Effekt, weil nie direkt mit Schock gekoppelt Gruppe 1 Hebeldrücken noch massiver unterdrückt als Ketteziehen = spezifischer Effekt In Gruppe 2 Hebel etwa genauso wenig genutzt wie Kette Kontingente und spezifische Bestrafung am effektivsten. (Generelle Verhaltensunterdückung (CER) durch Präsentation eines aversiven Reizes, nicht durch Bestrafung). Angst erzeugt spezifischere Verhaltensunterdrückung als Furcht. Das Verh., das während Schockphase ausgeführt wurde/werden konnte hinterher stärker unterdrückt. = spezifisch Vorher aufgebaute Verh.weisen, die während Schockphase nicht ausgeführt werden konnten, weniger stark reduziert anschließend = unspezifisch, genauso starke Unterdrückung wie bei non-kontingenter Bestrafung. 20 Effizienz von Bestrafung: effizient wenn: intensiv, unmittelbar ( Kontiguität), kontingent und spezifisch. Außerdem am effizientesten wenn alternative Verh.weisen aufgebaut werden. Implikation f. Alltag/Therapie: Bestrafung sollte ohne Verzögerung nach zu löschender Verh.weise auftreten, sollte ersichtlich sein, auf welches Verhalten sie abzielt, sollte nur eingesetzt werden, wenn Verh. auch tatsächlich gezeigt wurde, sollte intensiv sein (sonst Habituation=> immer stärkere Bestrafung) + idealerweise alternative Verh.weise aufbauen, die gleiche/ähnliche Verstärkung bringt. Bestrafung ist kein Lernen über Löschung bzw. erst später, wenn dann tatsächliche Löschung einsetzt => Bestrafung beschleunigt Löschen nicht. VERMEIDUNG Standartexperimentalparadigmen zur Analyse von Vermeidungsverhalten „signalled shock“ (Solomon & Wynne, 1953) Hund in 2-Kammer-Käfig. Licht aus 10 Sek. später Schock. Licht anSchock aus. Erst hopst Hund hin und her bei Schock. – Wiederholt springt irgendwann über Wand in andere Kammer, wo Licht an und kein Schock. hier auch Licht aus Hund springt zurück in andere Kammer. Bald gelernt, Schock ganz zu vermeiden und vor Ende der 10 Sek. nach Licht aus (=Hinweisreiz) in andere Kammer springen. Vermeidung des Schocks verstärkt Springverhalten, auch wenn nach Licht-aus gar kein Schock mehr kommt. (extrem löschungsresistent) Freie operante Vermeidung, Unangekündigtes Flucht-/Vermeidungslernen („Sidman“Vermeigung) Sidman 1953 Hebeldrücken, Schocks ohne Signal vorher. -- wenn Tier nichts tut alle 5 Sek. Shock -- wenn reagiert Verschiebung Schock um 30 Sek. nach hinten, jedes Drücken in Pause leitet neue Pause ein D.h. jede R verschiebt nächsten Schock, kann durch kontinuierliches Drücken ganz vermieden werden. Auch hier extrem löschungsresistentes, stabiles Vermeidungsverhalten, obwohl kein offensichtlicher Hinweisreiz. Theoretische Erklärungen von Vermeidung Zwei-Faktoren-Theorie (Mowrer, 1947): 1. klassische Konditionierung von Furcht 2. Furchtreduktion als Verstärker der Vermeidung (negative Verstärkung) (OK) -Bei „signalled shock“: Schock= US, Angst = URCR, Licht aus = CS. Durch KK wird die Angst von US auf CS übertragen. KK OK: Wenn in andere Kammer springt, dort Licht noch an = Vermeiden von Licht aus. Springen reduziert Furcht vor CS (= Wegfallen eines aversiven Reizes bzw. Gefühls, nämlich der Furcht) = negative Verstärkung von Springen. Verstärker = Flucht vor Angst auslösendem CS/ Beseitigung der Dunkelheit weil angstauslösend. Der aversive Reiz ist die Angst, die entsteht, wenn das Licht ausgeht. -Bei „unsignalled shock/ freie operante Vermeidung“ : 1. Faktor KK: Schock= US, Angst = UR, Verstrichen der Zeit seit letzter Reaktion =CS (Angstcue) Mit zunehmendem Verstreichen der Zeit steigt Angst. 2. Faktor OK: Hebeldrücken reduziert Angst weil verlängert Zeit. Beenden der Angst durch Hebeldrücken = negativer Verstärker der Vermeidung 21 Bei 2 Faktor Theorie ist Verstärker nicht Vermeidung des Schocks sondern Vermeidung des Angst auslösenden Stimulus. Pro 2-Faktor: Erwerb neuen Verhaltens, um Furchtsignal zu beenden (z.B. Springen) Wenn Hunde nach 2 in 1 Kammer Käfig wo Licht aus und es dort Schalter für Licht an gibt, lernen schnell Schalter drücken. Suppressionseffekte des Furchtsignals (Kamin et al. 1963): Eine Reaktion, die Signal hervorruft, das Furcht ankündigt wird unterdrückt, lässt nach. Contra 2-Faktor: -Vermeidung auch ohne CS (Hernstein & Hineline, 1966) -Vermeidung ohne CR: Kein Zeichen von Furcht nach gut gelernter Vermeidung (Bald keine Furcht mehr, wenn springt weil aversive Konsequenz ja unter Kontrolle Aber Vermeidung aufrecht erhalten!) Anscheinend CR nicht nötig. - Löschung von Furcht und Vermeidung: Furcht kann gelöscht werden durch gut gelernte Vermeidung und Vermeidung kann nach Responseblockierung gut und schnell gelöscht werden (Vorher allerdings Vermeidung stabil, auch wenn kein CS mehr da, was ja Fall ist wenn springt) Herrnstein &Hineline (1966) Ratten konnten durch Hebeldrücken von einem 30% auf 10% Plan wechseln (mit einer 30 bzw 10%igen Wahrscheinlichkeit für Schock) Wenn erster Schock im 10% Plan automatisch wieder im 30% Plan usw.– so führte häufiges Hebeldrücken zu durchschnittlich weniger Schocks, jedoch bot es keine Gewähr für eine festgelegte Zeitspanne ohne Schocks. D.h. es wird immer Schocks geben, nur bei Drücken mit geringerer Wahrscheinlichkeit. Damit gibt es keinen Furchtreiz, - signal, denn Schock kann immer auftreten (Verstreichen der Zeit kein CS mehr), mehrmaliges Hebeldrücken im 10%P bringt erstmal nichts (erst wenn wieder nach schock im 30er Plan) Ergebnis: trotzdem stabiles Vermeidungsverhalten! kann nicht mit der 2-F-Theorie erklärt werden, da kein CS kann mit 1-Faktor-Theorie erklärt werden, die besagt, dass auch „relativ“ positive Ereignisse ein Verstärker sein können. Nicht die reduzierte Kontingenz sondern die „schock-freie-Phase“ ist der effiziente Verstärker (denn Tiere haben in Vergangenheit ja Schocks erfahren und vergleichen mit dieser, nicht mit neutraler Basis). Somit verstärkt schon die Reduktion in der relativen Frequenz aversiver Reize Vermeidungsverhalten. „nichts“ ist besser als schocks. Die Tiere kriegen in unregelmäßigen Abständen Schocks, und zwar nach nem 30% Plan. Wenns den Hebel drückt, kommt es automatisch in den 10% Plan. Da kommt der Schock dementsprechend seltener, aber er kann auf keinen Fall vermieden werden. Sofort, wenn der Schock vorbei ist, wechselt der Plan wieder auf den 30% Plan, wo Schocks durch Hebeldruck und Sprung in den anderen Plan vermieden werden können. Doof ist, wenn der nächste Schock im 10% Plan sofort kommt, denn dann wechselt der Plan ja sofort wieder. Was da untersucht werden sollte ist folgendes: Die verstrichene Zeit kann nicht als CS wirken, da mehrmaliges Hebeldrücken nichts bringt. Es gibt auch keinen anderen FurchtCS wie Licht oder Zeit etc. Trotzdem wird regelmäßiges Verhalten gezeigt: Der Hebel wird oft gedrückt. In diesem Experiment wurde der Unterschied in der relativen Häufigkeit von Schock im Gegensatz zu Ausbleiben eines Schocks bzw. die Schockfreie Phase zum Verstärker. 22 Ein-Faktor-Theorie: Operante Vermeidung Reduktion in der rel. Fr. aversiver Reize verstärkt Verm.verh. Relativ positive Ereignisse reichen Schock-freie Phase ist effizienter Verstärker (nicht Kontingenz), zeitlich unmittelbare Konsequenz ist ausschlaggebend (auch nicht rel. Häufigkeit siehe Hineline 1970) Wenn Tier reagiert ist rel. H. geringer als wenn nicht reagiert = negativer Verstärker Kontra: Löschungsresistenz; unabhängiger CS wirkt als Furchtsignal, verstärkt Vermeidungsverhalten Hinelines Experiment zur Dissoziation von Verzögerung und Häufigkeit (sagt, dass Tiere nicht über längeren Zeitraum hinweg Korrelationen ein schätzen können) 20-Sek. Intervalle. Keine Reaktion: Schock nach 8 Sekunden. Reaktion vor Ende der 8 Sek: Schock nach 18 Sek. Schock nie vermieden, nur verschoben oder nicht Ratten reagieren regelmäßig! (Kann also nicht mit Häufigkeit zu tun haben) Teil 2) Wenn keine Reaktion: wie in Teil 1 20-sek.Intervall mit Schock nach 8 S Wenn Reaktion: Schock genau 10 S später, nächstes Intervall beginnt direkt nach Schock durch häufige R verkürzen sich die Intervalle und es gibt insgesamt mehr Schocks trotzdem drücken Ratten häufiger den Hebel Nach Hinten Verschieben = unmittelbare Konsequenz, ist ausschlaggebender als Häufigkeit (die ist im 2.Teil sogar höher bei Reagieren). Kognitive Theorie: (Seligman & Johnston, 1973) Tiere und Menschen treffen rational Entscheidungen Liefert Erklärungen auf der Basis von Präferenzen, Erwartungen und Bestätigung/Widerlegung dieser Erwartungen durch Erfahrungen. Wählt immer das Verhalten, das laut Erfahrung die Präferenz besser bedient Erwartung (bleibt, muss nicht aufgefrischt werden) Wenn Präferenz: Schock besser als kein Schock und Erwartung, dass R Wahrscheinlichkeit für Schock reduziert und nicht R P (Schock) erhöht, ist: Bestätigung der Erwartung, wenn R tatsächlich Schock reduziert und umgekehrt. Widerlegung wenn R Schock bringt und umgekehrt. Erklärt auch: Löschungsresistenz Handeln aufgrund von Erwartungen, selbst wenn diese falsch. Denn durch Reaktion Erwartungen bestätigt, kein Grund zur Änderung und weil nie nicht reagiert kann auch nicht widerlegt werden. Löschung nach Responseblockierung: Wenn einmal die Erfahrung gemacht, weil evtl. dazu gezwungen, nicht zu reagieren (Response blockiert), dass kein Schock mehr kommt, auch wenn keine R Vermeidungsverhalten gelöscht weil Erwartungen aufgrund neuer Erfahrungen modifiziert. Ein-F- Th. Aber keine Erklärung für CS-Furchteffekte Biologische Theorien (Boelles, 1970) Spezies-spezifische Defensiv_Reaktionen (SSDR) Jeder Organismus hat angeborenes Repertoire SSDR, die evolutionär bewährt, die die besten in Gefahrensituationen sind: Freezing, Attacke, Flucht. Werden spontan in Gefahrensituation gezeigt leicht als Vermeidungsverhalten erworben 23 Im Labor: alles andere als SSDR lässt sich nur sehr mühsam als Vermeidungsverhalten aufbauen Implikation für Allgemeingültigkeit von Verm.verh.: alles andere als SSDR ist unökonomisch und funktioniert nur im Labor (aber auch nur mühsam) damit nicht allgemeingültig. In Natur vermeidet Gegner jegliches Gefahr für das Opfer signalisierende Signal + Tier testet nie andere Vermeidungsverhalten aus als SSDR da die schon am besten bewährt und alles andere zu riskant. Erkennen von Vermeidung im Alltag nur schwer, weil wenn Vermeidungsverhalten funktioniert, tritt negative Konsequenz ja nicht ein, nichts passiert kann auch nichts beobachtet werden. Kann oft von außen nicht sagen, ob Verh. erreichen positiver Konsequenz (z.B. Shoppen wg. Kleidung) dient oder Vermeidung negativer Situationen (Stress zu Hause) weil nur das Verhalten sieht aber nicht die Motivation dahinter. Weder Anlass noch Konsequenz ist sichtbar. Gelernte Hilflosigkeit: Beeinträchtigung des späteren Vermeidungslernens nach unkontrollierbaren negativen Reizen. Ovemier & Seligman, 1967: Hunde in Geschirr Schocks konnten nicht reagieren, entkommen.Danach in shuttle-box: lernten kein oder kaum (entsprechend Anzahl und Intensität der Schocks) Vermeidungsverhalten! (KG keinen Schocks ausgeliefert lernt schnell in shuttle box). Aversive Reize mit vs. ohne Flucht bzw. Vermeidungsmöglichkeit Yoked-control-design: (Seligman & Maier, 1967) 2 Tiere in verschiedene Käfige, in jedem Laufrad, Käfige gekoppelt: Wenn eingeschaltet bekommen beide Strom. 1. Ratte konnte durch Laufen im Laufrad ihren und gleichzeitig den Strom der 2. Ratte ausschalten lernte dies schnell. Ratte 2 konnte Strom nicht beeinflussen, aber bekam genauso viel + gleich intensiv wie Ratte 1 (yoked) Also ES (escapable shocking) konnte Dauer der av. Reize beeinflussen, IES (inescabable shocking) nicht, aber beide gleich geschockt. KG ohne Schocks danach in Shuttle Box: die ES Gruppe lernte perfekt, sogar besser als KG, IES lernte kaum/ gar nicht gelernte Hilflosigkeit liegt nicht an Anzahl + Intensität der Schocks (= Konfundierung früherer Untersuchungen) sondern an Unkontrollierbarkeit der Sit.=> Kontrolle über Sit. ist entscheidend! (auch weil nicht vorhersagbar) Kontrolle dann auch in Folgesit. nicht mehr gelernt = gelernte Hilflosigkeit. Generalisierungseffekte: Frühe Erfahrungen mit nicht kontrollierbaren aversiven Reizen erzeugen Hilflosigkeit, die sich auch auf andere Situationen und anderes Verhalten überträgt. Übertragung auf andere Formen des Lernens (Hiroto & Seligman, 1975) Humanexperiment. Studentengruppen bekamen aversive Laute über Kopfhörer, --Gruppe 1 konnte durch Knopfdrücken Töne für sich und für Gruppe 2 (wussten beide nicht) beenden, Gruppe 2, ohne dies zu wissen, nicht. -- Außerdem signalisierte grünes oder rotes Licht, ob Ton beendet wg. VP oder durch VL. Bei Gruppe 2 immer angezeigt, dass wg. VL. Danach Anagramme Ergebnis: Gruppe 2 wesentlich schlechter 24 => gelernte Hilflosigkeit auch dann, wenn Originalsit. völlig andern Charakter = Kontrollverlust als Ursache eines globalen Motivationsdefizits. Hilflosigkeit als Modell der Depressionsentstehung: Defizit oder funktionale Rekonfiguration? Fokussierte vs. offene Informationsverarbeitung Lee & Maier,1989: Eine Gruppe von Ratten erlernte Hilflosigkeit, andere nicht. In Käfig, wo schwimmen mussten, hinter Tür Plattform Bedingung1) Plattform immer links, Tür schwarz oder weiß Standard-Hilflosigkeitseffekt Bedingung2) Plattform auch immer links, beide Türen schwarz beide Gruppen gleich gut => kein Hilflosigkeitseffekt mehr! Bedingung3) Plattform mal rechts, mal links, Türen wieder schwarz/ weiß IES Gruppe signifikant besser! Erklärung: IES-Ratten haben Ziel aufgegeben, weil Schocks immer kamen, mussten Aufmerksamkeit von Ziel lösen und auf andere Dinge richten offenerer Fokus. Ist klug, ablenkbar zu sein. In 3. Bedingung hilfreich, weil Tunnelblick nicht weiterhilft Bd1) IES mit offenem Fokus ließ sich ablenken von Türfarbe Bd3) IES im Vorteil mit offenem Fokus, weil Farbe zufällig wechselt. Hilflosigkeit ist auch Nicht-Kontingenz zwischen Vermeidung aversiver Stimuli und Reaktion. Weder positive noch negative Kontingenz, Person hat keine Kontrolle, kann nicht vorhersagen, weiß nicht, was tun soll weil Verh. keinen Einfluss hat, Ergebnis nicht beeinflussbar, weder durch reagieren noch durch nicht reagieren. => gelernte Hilflosigkeit Operante Konditionierung IV Verschiedene Arten von Assoziationen R-S*: spezifische Erwartung bestimmter Verstärker (S*) als Folge bestimmter Verhaltensweisen (R) . Spezifische Handlungs-Effekt-Assoziation. Beleg: Studie zur US- Um-,/ Abwertung: Abwertung spezifischer Verstärker führt zur Reduktion der damit assoziierten Verhaltensweisen. 1) Hebel Futter Kette Zuckerwasser 2) Umwertung eines Verstärkers, z.B. Futter frei zur Verfügung stellen Schock geben (oder einfach umwerten – satt füttern) Futter bekommt andere Bedeutung (wertlos oder negativ) Test: Kette + Hebel Wie verändert sich Häuf. der Verh.weisen? Ergebnis: P (Kette) = unverändert zu Phase 1 P (Hebel) = deutlich reduziert! Erklärung: Muss Handlung mit Effekt assoziiert haben, denn Hebeldrücken war in P2 nicht möglich und trotzdem reduziert in Test In dem Moment wo Futter wertlos, kann auch Ass. zw. Futter – Hebel nicht mehr existieren. Muss spezif. Assoziation bestanden haben, denn Wert von S* sinkt und dies wirkt sich auf erstes Verhalten aus. S-S*: Erwartung bestimmte Verstärker in bestimmten Situationen (S) = Ass. zwischen neutralem Hinweisreiz + der damit ass.Verstärkung. Ist zusätzliche(!)Quali.von Ass.(zu R-S*) 25 Sit. ist mit Verstärker gekoppelt, wirk dann rückwärts über die R-S*-Ass. auf das Verhalten. Ass. bidirektional, Sit. steuert indirekt das dazu passende Verh. Beleg: (Colwill & Rescorla, 1988): P1) Ein Verhalten (nosepoke). S-S* -Ass. lernen Licht an Futter Ton Zuckerwassser P2)Ohne Hinweisreiz, R-S* -Ass. lernen Hebel Futter Kette Zuckerwasser Test: Licht: Hebel vs. Kette Ton: Hebel vs. Kette Ergebnis: unter Licht deutlich mehr Hebel, unter Ton deutlich mehr Kette Muss indirekte Verbindung sein weil Hebel/Kette nie mit Licht/Ton gepaart, d.h. in best. Sit. wird damit ass. Verstärker erwartet, führt über gelernte R-S* -Ass. zur Aktivierung des assoziierten Verhaltens = R-S* und S-S*-Ass. in Kombination S-R: „Einbrennen“ von habits (sHr) durch Verstärkung, (durch Verstärkung entstehen Gewohnheiten) (Hull, 1943), Verstärker selbst nicht Teil der erworbenen Ass. gelernt wird direkte Ass. zwischen Situation+Verhalten.(Verstärker nur Katalysatorfunktion, weil dadurch die Ass. stärker) Beleg: Restverhalten nach US-Umwertung. Kann nicht an Verstärker liegen, denn der wird nicht beachtet wenn erfolgt: Ratte lässt Futter liegen, drückt dennoch Hebel, aus Gewohnheit. Kaum direkte Evidenz (Nur unter Licht-an Hebel drücken weil nur dann Futter kommt ist auch S-S*. Auch unter blau mehr Hebel drücken und unter rot mehr Kette ziehen weil gelernt, dass nur in best. Sit. best. Verhalten sinnvoll ist (Sit. mit Verh. assoziiert), kann alternativ mit OS erklärt werden, der anzeigt, wann bestimmte R-S*-Ass. gelten) OK ohne Reaktion und Verstärkung Lernen ohne Reaktion: Labyrinthlernen auch bei passiver Bewegung (McNamara 1956) Ratten wurden im Drahtkorb durch Labyrinth gefahren laufen sofort richtig danach. KG desorientiert Gelerntes in Verhalten umsetzbar, obwohl dieses Verh. vorher nie verstärkt. stellt Grundprinzipen des law of effets in Frage, das besagt: Ausführen der Reaktion als notwendiger Bestandteil des Lernprozesses, nur wenn R auftritt kann auch verstärkt werden. Grundprinzip ist Lernen durch Versuch und Irrtum, also aktive R. In Frage gestellt. Lernen ohne Verstärkung: (latentes Lernen) Gelernt wird auch ohne Verstärker, das Verh. dazu wird bloß erst bei Verstärkung gezeigt. Labyrinthlernen ohne Belohnung führt zu dramatischem Leistungszuwachs unmittelbar nach Einführung Verstärkung (Tolman & Honzik, 1930) Gruppe 1: immer verstärkt wenn an Ziel Gruppe 2: kein Verstärker Gruppe 3: Verstärker ab Tag 12 Gruppe 1 immer zielorientierter, Gruppe 2+3 bis Tag 12 verharren auf Niveau relativer ziellosigkeit. Belohnung einführen ab Tag 12 für Gruppe 3 innerhalb eines Durchgangs sofort auf Niveau der Gruppe 1 D.h. müssen nicht erst anfangen zu lernen = Latentes Lernen Implikation: Lernen an sich bedarf keiner Verstärkung, nur um Verhalten zu aktivieren (Performanz) ist Ziel/ Belohnung nötig, sobald verstärkt, wird bereits erworbenes Wissen genutzt. 26 Gelernt wird bei Lernen ohne R oder ohne S* (beim latenten Lernen): kognitive Repräsentation des Verhaltens, Art „kognitive Landkarte“ wird entwickelt, die bei Bedarf abgerufen und ausgeführt werden kann. Nicht eine bestimmte Verhaltensweise wird gelernt, sondern ein Wissen, dass hierzu genutzt werden kann. Ass. zwischen Mittel und Ziel, die durch Verstärker energetisiert wird. Bildung von Erwartung + kogn. Landkarte Beobachtungslernen (Bandura, 1965) Lernen ohne eigenes Verhalten und mit stellvertretender Verstärkung. (Kombination von Lernen ohne R und Lernen ohne S*) Kindern Film gezeigt, in dem Modell Puppe niederschlägt Nachahmungseffekte: Kinder machen nach, obwohl nie belohnt und nie von „Lerner“ gezeigt vorher. Zusätzlich modulieren Modellqualitäten den Effekt. Stellvertretende Verstärkung: Wenn 2. Person im Film das Modell lobt steigt Verhaltenshäufigkeit im Vergleich zu den Bedingungen, in denen Vorbild bestraft (= indirekte Bestrafung des Lerners). aber wenn explizit dazu aufgefordert, nachzuahmen: alle Kinder können es, haben gelernt – unabh. davon, ob indirekt belohnt oder nicht! Lernen vs. Performanz: Lernen: kognitive Komponente, die Repr. des Verhaltens Performanz: Gelerntes in Verhalten umgesetzt, geschieht unter Belohnung, von Anreizbedingungen abhängig, unmittelbar durch Verstärkung reguliert. Zirkularität der Verhaltenserklärung durch Verstärkung: Ursache von Veränderungen in Verh.wahrscheinlichkeit ist syst. Kopplung mit Verstärker/Strafreiz. Ob reagiert oder nicht wird immer auf Verstärker attribuiert, Verstärker als „Reiz, der Verhalten verstärkt“ und es wird angenommen, dass er „Verhalten verstärkt, weil er ein Verstärker ist“ – wenn keine Änderung- dann kein S* = Zirkelschluss Kein Vorhersageelement Braucht Kriterium, das im Voraus sagt, ob Stimulus als Verstärker wirkt Bedürfnis- und Triebreduktion (Hull, 1943, Miller, 1984) Reiz ist dann Verstärker, wenn er biolog. Bedürfnisse und Treibe befriedigen/reduziern kann (z.B. Wärme, Schutz, Nahrung) aber: gibt auch Verstärker, die nicht in dieses Schema passen, z.B. Fernsehen beim Menschen. Oder männl. Ratte drückt auch dann regelmäßig Hebel, wenn es dadurch paarungswilliges Weibchen nur sehen kann – es also nicht zur Triebreduktion kommt. Transsituationalität: (Meehl, 1950) Reiz ist dann Verstärker, wenn er in einer Sit. bei einem Individuum einmal als solcher gewirkt hat – sollte dann auch in anderen Sit. wirken, andere Verhalten verstärken. D.h. interindividuell unterschiedliche aber intraindividuell über Situationen hinweg konstante Verstärker. Empirisch gehaltvoll weil Hypothese aufgestellt und getestet werden kann = differentielle Hypothese Funktioniert aber nur, wenn Triebe – und Bedürfnisse konstant gehalten werden. Verhaltensgelegenheiten als Verstärker/ das Premack’sche Prinzip: Verstärker ist kein Reiz, sondern das Verhalten, das man mit diesem Reiz machen kann, also die Gelegenheit, ein bestimmtes Verhalten auszuführen. Verstärker: Wahrscheinliches Verhalten als Verstärker für seltenes. Wenn häufig auftritt, wirkt als Verstärker. Die Möglichkeit, ein attraktiver Verhalten auszuführen, wirkt verstärkend. Verhaltensgelegenheit als Verstärker. Je häufiger, desto verstärkender. 27 Bestrafung: Seltenes Verhalten als Strafe für häufiges. Wenn Kontingenz eingeführt, bei der auf attraktiver Verh. zwangsläufig unattraktives (das selten ausgeführte) folgen muss, dann reduziert dies das attraktive, weil durch seltenes bestraft. Z.B. Laufzwang als Strafreiz für Trinken bei einer durstigen Ratte. (also Nutzung der reziproken Kontingenz, um sicherzustellen, dass Verhaltensweisen in fester Quote zueinander auftreten). Verletzung des Transsituationalitätsprinzips: Weil nur seltenere Verhaltensweisen , nicht häufige, verstärkt werden können, dieselbe Verhaltensmöglichkeit kann in einer Sit. als Verstärker (wenn häufiger als Sit.) und einmal nicht als Verstärker (wenn seltener als Sit.)wirken. Z.B. drückt ein Affe am liebsten Hebel, mit mittlerer Wkeit Türöffnen und am wenigsten Kolbenziehen. Wenn Bedingung H T und K T, wirkt T nur für K als Verstärker, nicht für H (da H ja schon in der Basisbedingung am häufigsten auftritt. Hier ein und die selbe Verhaltensmöglichkeit je nach Situation als Verstärker oder nicht - widerspricht dem Transsituationalitätsprinzip weil nicht transsituativ verstärkend. Reaktionsdeprivation: Stärker eingeschränktes (stärker depriviertes)Verhalten als Verstärker für weniger eingeschränktes, weil eingeschränkt = kostbar. Funktioniert auch, wenn das stärker eingeschränkte das seltenere aus der Basisbedingung ist. Denn immer wenn das verlangte Verhältnis von häufigem zu seltenem Verhalten größer ist als in der Basisbedinung (also wenn noch mehr attraktives und noch weniger unattraktives gefordert wird) kann das seltene Verhalten als Verstärker dienen. Tier zeigt dann noch mehr häufiges um wenigstens etwas das seltene ausführen zu können. => Überlegenheit dieser Theorie ggü. dem einfachen P’schen Prinzip (nur häufig über selten) Je nach Verstärkerplan wird Kompromiss gewählt Annäherung an Basisbedinung Mazur 1975: Basis: Trinken 17%, Laufen 10% Reziproke Kontingenzbedingung 1) T:L = 1:3 T verstärkt L, L bestraft T Ergebnis: Um mehr Trinken zu können, läuft mehr als in Basis– aber da Laufen Trinken bestraft, trinkt weniger als in Basis Bd 2) T:L = 9:1 L verstärkt T, T bestraft L. Weil Bedürfnis, wenigstens etwas zu laufen, wird depriviert trinkt noch mehr als in Basis (L als Verstärker) und läuft aber auch weniger als in Basis = Kompromiss mit Annäherung an Basis Grenzen des P’schen Prinzips: Wenn Belohnung/Bestrafung keine Verhaltensgelegenheiten bringt bzw. moduliert sondern lediglich ein positives/neg. Gefühl durch elektrische Stimulation des Gehirns/Elektroshocks Olds&Milner, 1954: Ratten drücken Hebel bis zum Maximum, wenn Belohnungsareal elektrisch stimuliert Bzw. Schocks unterdrücken Verhalten irrelevant, wie häufig oder eingeschränkt Verhalten vorher war + Konditionierte (sekundäre) Verstärkung: bewirken Aufbau eines Verhaltens obwohl selbst nicht direkt Gelegenheit bieten, ein Verh. auszuführen. Information als Verstärker: „observing responses“ v.a. bei positiver Information, Verstärker ohne motivationalen Anreiz. je nachdem welches Feld Ratten drückten, konnten sie durch farbiges Licht entweder darüber informiert werden, welcher der 2 Verstärkerpläne als nächstes kommt oder nicht weil immer das gleiche Licht. 28 Die Pläne selbst waren dadurch nicht beeinflussbar Ergebnis: klare Präferenz für informationsliefernde Taste Information wirkt verstärkend Doch etwas motivationsgesteuert, denn wenn Ratte durch Tastendruck erfahren kann, in welchem Schockplan sie sich befindet keine Präferenz für Infotaste d.h. funktioniert v.a. bei positiver Info Relationen von operanter und klassischer Konditionierung Zwei-Faktor-Theorie: KK und OK als 2 distinkte Phänomene Unterschiedliche Phänomene: KK: S-S/S-R-Lernen (CS-US/CS-UR = Reiz-Reaktions-Lernen) OK: R-S*/S-S* -Lernen (Verhalten-Konsequenz/ Situation-Konsequenz) unterschiedliche Assoziationen gelernt Unterschiedliche Verhaltensklassen: KK: Verhalten respondent, stimulusbezogen, Reflex, automatisch. Autonome R, nicht willentlich steuerbar OK: Verhalten operant, instrumentell, konsequenzbezogen, willentlich steuerbar. Willkürmotorik, über die Skelettmuskulatur gesteuertes kontrolliertes Verhalten. Gegenevidenz: Operante Konditionierung autonomer Reaktionen: Biofeedback (Blutdruck beeinflussen, wenn angezeigt wird). OK bei curarisierten Tieren (Miller & DiCara) Mäuse durch Curare lahmgelegt, keine Willkürmotorik mehr. An Atemgerät. Herzschlag (autonome R)aufgezeichnet, Draht zur Stimulation ins Gehirn -Durch Verstärkung (Stimulation) hohe Herzfrequenz belohnen bald deutlich gestiegen. -Niedrige Herzfrequenz verstärkt Frequenz sinkt. (= Shaping) => autonome Reaktion Herzschlag operant konditioniert Klassische Konditionierung willkürlichen Verhaltens: Kontingenzeffekte beim Autoshaping, Gamzu & Williams 1971. Autoshaping: Tauben picken an Lichtfeld obwohl Futter auch so kommt. Lichtfeld= CS, Picken =CR, Futter = US (ist kein abergläubisches Verhalten, keine OK!) Funktioniert nur bei Licht-Futter-Kontingenz: wenn Futter auch ohne Licht Kontingenz eliminiert (hohe Basisrate), kein Lernen => KK einer operanten Reaktion Ein-Faktor-Theorie: Gemeinsamer Kern von OK und KK, nutzen die gleichen Strukturen Emotional/motivationale Ein-Faktor-Theorie der KK und OK Dickinson & Dearing (1979) Zentrale, motivational/emotional vermittelte Einflüsse von KK auf OK (CER z.B. Interaktion) Gleiche Strukturen: grundlegende emotionale Phänomene ermöglichen Austausch OK KK. 1. Ebene KK: Präsentation eines aversiven/appetitiven Reizes löst direkt interne Repräsentation des US und damit Reflex (UR) aus. CS hat bald selbe Fähigkeit 2. Ebene OK: Reiz/ interne Rep. aktiviert außerdem Motivationssystem der Annäherung oder Vermeidung, welche entsprechendes Willkürverhalten (Vermeidung, Annäherung) 29 energetisieren. Auch CS kann also Willkürverh. über Motivationssystem auslösen.Die beiden Systeme hemmen sich gegenseitig. => Verknüpfung KK mit instrumentellem Verhalten Das gleiche instrumentelle Verhalten kann Vermeidungs- oder Annäherungscharakter haben und je nach Reiz gehemmt/aktiviert werden US/CSkogn. RepräsentationReflexMotivationssystem Vermeidung/Annäherung Kongruenz – und Inkongruenzeffekte auf der Ebene eines zentralen Annäherungs/Vermeidungssystems: Hemmungs – und Erleichterungseffekte auf appetitiv/aversiv motiviertes operantes Verhalten durch kond. reize, die das Eintreten/Ausbleiben (CS+/CS-) positiver/neg. Sit. anzeigen. CER wäre Hemmung eines appetitiven operanten Verhaltens durch einen klassisch konditionierten CS+, der Aufttreten eines aversiven Reizes ankündigt. Informationale Ein-Faktor-Theorie Informational vermittelte Einflüsse von KK auf OK Wissen, Einsicht über bestimmte Zusammenhänge ist dabei ausschlaggebend. Ziel ist es, sich auf Sit. einstellen zu können und entsprechend zu reagieren, was das für Zusammenhänge sind spielt dabei keine Rolle Informationswert von Zusammenhängen als allgemeines Prinzip des Lernens Ist EIN Mechanismus, der bei KK und OK wirkt! - dabei nicht wichtig, ob S-S/S-R- oder S-S*-Zusammenhang - nur wichtig, welcher Zusammenhang informativer ist für die Konsequenz/Kausalität Wenn CS informativer ist als operante R letztere blockiert, wenn Reaktionen informativer sind CR geblockt = Redundanzeffekte zwischen OK und KK - je nach dem ob Reiz oder Verhalten einen höheren Informationswert hat, wird eine Assoziation zwischen Verhalten und Konsequenz (R-S*) oder Reiz und Konsequenz (S-S/SR) gelernt Einsicht hoch spezifisch -> Art des Verstärkers beeinflusst R Kontrolle (= op. Verhalten) der Konsequenz kann übertragen werden auf einen zuvor neutralen CS Transfer of control Transfer – of –control: BEDINGUNG1) PhaseI) KK: Ton Futter. Ton löst bald CR aus OK: Hebel Futter. gelernt Hebel also instrumentelle Kontrolle über Futter, soll übertragen werden auf Ton Test) Ton Hebel Futter Ergebnis: Tier lernt tatsächlich blad, nur bei Ton Hebel zu drücken weil Hebel nur dann Futter bringt, hat transfer- of-control stattgefunden. Funktioniert, weil in Phase I Ton mit Futter assoziiert worden ist und in II Futter das Verh. gesteuert hat. Ton kann über Repräsentation des Verstärkers Futter das Verhalten Hebeldrücken triggern BEDINGUNG 2) Phase 1) KK: Ton Futter OK: Hebel Zuckerwasser Test) TonHebel Zuckerwasser Ergebnis: Tier lernt nicht, bei Ton Hebel zu drücken, Hebeldrücken kann nicht abhängig gemacht werden vom Ton! D.h. nur wenn eine Reaktion mit dem gleichen spezifischen Verstärker assoziiert wurde, kommt es zum Transfer 30 widerspricht der motivationalen 1-Faktor Theorie, denn laut dieser müsste Ton ein generelles Annäherunssystem und beliebiges appetitives Verhalten triggern, unabhängig davon, um welches spez. Verhalten/spez. Reiz es sich handelt Informationale scheint der emotionalen Theorie überlegen Spricht für Ansatz der spezifischen Assoziationen. Spezifischer Zus.hang wird gelernt. Blockierung operanter Reaktionen durch informativeren CS (St. Claire – Smith, 1979) Gruppe 1) In ca. Hälfte der Fälle folgt auf Hebel Futter, ist also partial-reinforcement mit Kontingenz von 0,5 Tiere lernen gut Gruppe 2) Ebenfalls 0,5 Kontingenz zwischen Hebel und Futter, aber ein Licht leuchtet immer dann zw. Hebel und Futter auf, wenn garantiert Futter kommt Ratte lernen kein Hebeldrücken mehr! Gurppe 2) Licht immer dann nach Hebel, wenn kein Futter kommt Tiere lernen gut Erklärung: für Gruppe 2 ist Licht der bessere Prädiktor (als Hebel), weil mit 100%iger Wkeit Futter vorhersagt = Kontingenz von 1 = Blockierungsphänomen Licht-Futter wird schnell gelernt, Hebel-Futter nicht der bessere Prädiktor blockiert den schlechteren (in diesem Falle blockiert CS operante Reaktion) Implikation: bei KK und OK geht es gleichermaßen um das Lernen von Kausalbeziehungen zwischen Ereignissen. D.h. EIN Mechanismus für S-S/S-R und R-S*-Beziehungen, = Mechanismus der Vorhersage. Wird immer der bessere Prädiktor genommen, egal ob Reiz oder operante Reaktion. Dabei ist der Informationswert von Zusammenhängen das allgemeine Prinzip des Lernens = Beweis für 1-Faktor-Theorie Bei OK und KK ist der Informationsgehalt eines Stimulus die ausschlaggebende Bedingung für Konditionierung. Es gilt der gleiche Mechanismus für alle Arten von Assoziationsbildung. Klassisch konditionierte CS und operantes Antwort-(Reaktions-)Verhalten können als Prädiktoren ausgetauscht werden. OK und KK das gleiche weil Mechanismus der gleiche (Kausalbeziehungen erkennen). Blockierung konditionierter Reaktionen durch informativere Reaktion (Garrud et al., 1981) (klassisch konditionierter sekundärer Verstärker blockiert durch operantes Verhalten) KG: Laufen im Laufrad bringt Futter, unmittelbar vor Futter immer Klick beide perfekte Prädiktoren EG: Laufen im Laufrad bringt immer Futter, nur in 50% der Fälle vor Futter Klick Laufen besserer Prädiktor als Klick (Kontingenz 1 vs. K. 0,5) Test: Hebel Klick Ergebnis: nur die KG lernt, regelmäßig den Hebel zu drücken- obwohl ja kein Futter kommt, aber „liebt“ Klickgeräusch weil ist klassisch konditionierter sekundärer Verstärker. EG lernt kein Hebeldrücken in Testphase! Besserer Prädiktor (in diesem Fall eine operante Reaktion) blockiert den schlechteren, nur noch Laufen erwirbt Assoziation mit Futter. Ergebnis spricht für 1-Faktor-Theorie weil ist der gleiche Mechanismus bei KK und OK, der Lernen ermöglicht: Wissen über Kausalzusammenhänge. CS und op. Verh. können dabei als Prädiktoren ausgetauscht werden, ausschlaggebend ist einzig der informationale Wert. 31