Fachrichtung Psychologie Professur Allgemeine Psychologie Vorlesung Lernen und Gedächtnis WS 2014/15 Instrumentelles Konditionieren I Thomas Goschke 1 1 Literatur Gluck, M.A., Mercado, E. & Myers, C.E. (2010). Lernen und Gedächtnis. Vom Gehirn zum Verhalten. Heidelberg: Spektrum Verlag. Kapitel 8+9. Mazur, J.E. (2006). Lernen und Verhalten (6. Auflage). München: Pearson Studium. Kapitel 6-9. Edward Lee Thorndike (1874-1949) Katzen lernten durch Versuch und Irrtum, durch welches Verhalten sie dem Käfig entkommen konnten Erwerb von Assoziationen zwischen Reizen (Situation), Reaktionen und Konsequenzen „Puzzlebox“ Copyright © 2008 by Worth Publishers Lernen am Erfolg: Gewohnheitshierarchien und das Gesetz des Effekts Aus Menge zunächst zufälliger Reaktionen werden solche mit höherer Wahrscheinlichkeit wiederholt, die zu positiven Konsequenzen führen „Ein befriedigender Zustand bedeutet, dass das Tier nichts tut, um ihn zu vermeiden, sondern vielmehr versucht, ihn herbeizuführen und zu erhalten.“ •„Ein frustrierender oder unangenehmer Zustand wird normalerweise vermieden und rasch aufgegeben“ •(Thorndike, 1898, S. 245). • Durch Belohnung oder Bestrafung werden Reiz-Reaktions-Assoziationen selektiv verstärkt oder abgeschwächt Analogie zwischen dem Gesetz des Effekts und Darwins Prinzip der natürlichen Selektion Lernen am Erfolg Natürliche Selektion • Variation: – Produktion von Reaktionen nach Versuch und Irrtum Variation: • Variation von Merkmalen der Individuen einer Art • Selektion: – Reaktionen, die zu Belohnung führen, werden verstärkt – Reaktionen, die zu Bestrafung führen, werden gelöscht Selektion: • Individuen mit adaptiven Merkmalen reproduzieren sich häufiger • Individuen mit weniger adaptiven Merkmalen reproduzieren sich seltener Verhalten von Katzen im Problemkäfig (Guthrie & Horton, 1946) 7 Verhalten von Katzen im Problemkäfig (Guthrie & Horton, 1946) Im Problemkäfig führte jede Bewegung des vertikalen Stabes zur Öffnung der Tür Abb. zeigt zwei verschiedene Katzen in den ersten 24 Durchgängen im Moment der Verstärkung © James E. Mazur, Lernen und Gedächtnis, Pearson Studium Verlag 2004. Burrhus Frederic Skinner (1904-1990): Operantes Konditionieren • Einer der bekanntesten Psychologen des 20. Jh. • 1931 PhD Harvard; ab 1948 Professor für Psychologie in Harvard • Beeinflusst durch Pavlov, Watson, Thorndike • Strenger Behaviorist: Ablehnung mentalistischer Begriffe in der Psychologie (heftige Attacken auf die Kognitive Psychologie) • Deterministisches Weltbild: Verhalten wird durch Gene & Lernerfahrungen bestimmt • Entdeckung und Beschreibung vieler grundlegender Lernprinzipien • Auch politische Schriften und alternative Gesellschaftsentwürfe auf der Basis von Konditionierungsprinzipien („Walden II“) Einige Zitate von Skinner “All we need to know in order to describe and explain behavior is this: actions followed by good outcomes are likely to recur, and actions followed by bad outcomes are less likely to recur.” (Skinner, 1953) „Does a poet create, originate, initiate the thing called a poem, or is his behavior merely the product of his genetic and environmental histories?“ "We shall not solve the problems of alcoholism and juvenile delinquency by increasing a sense of responsibility. It is the environment which is 'responsible' for the objectionable behavior, and it is the environment, not some attribute of the individual, which must be changed.“ Skinner Box Ratte kann Hebel drücken bzw. Taube kann auf Scheibe picken (R) Verhalten (Hebeldruck) löst bestimmte Konsequenzen aus (Futter, Wasser, Stromstöße) Hinweisreize (Licht, Ton) können dargeboten werden (S) Verhaltenshäufigkeit (Reaktionsrate) wird aufgezeichnet Phasen einer instrumentellen Konditionierung Bestimmung der Basisrate (Grundrate): • Wie oft tritt das zu konditionierende Verhalten ohne Verstärkung spontan auf? Verstärkung des Verhaltens in der Trainingsphase: • Das zu konditionierende Verhalten wird verstärkt. Die Häufigkeit des Verhaltens nimmt zu. Löschung (Extinktion) des Verhaltens: • Das Verhalten wird nicht weiter verstärkt. Häufigkeit des Verhaltens nimmt ab. Spontanerholung: • Abgeschwächte Reaktion tritt nach einiger Zeit ohne Verstärkung erneut auf Instrumentelles / operantes Konditionieren Operant: Lebewesen bewirkt durch seine Operationen eine bestimmte Konsequenz Instrumentell: Verhalten ist instrumentell für die Erreichung bestimmter Konsequenzen Vergleich klassisches vs. instrumentelles (operantes) Konditionieren Klassisches Konditionieren • • Respondentes Verhalten: Ereignisse werden nicht durch die eigenes Verhalten beeinflusst, sondern Erwartung des US aufgrund des CS löst angeborene Reaktionen aus Lernen von regelhaften Beziehungen zwischen Reizen (CS US). US CS CR Instrumentelles Konditionieren • • Operantes Verhalten: Lebewesen kann durch sein Verhalten bestimmte Konsequenzen bewirken Lernen der Konsequenzen, die eigenes Verhalten unter bestimmten Stimulusbedingungen hat (S - R - C) Instrumentelles Konditionieren • Dreifachkontingenz: Lernen des Zusammenhangs zwischen einer Reaktion (R) in Anwesenheit eines diskriminativen Hinweisreizes (S) und den positiven oder negativen Konsequenzen (C) der Reaktion S R C+ S R C- Diskriminationslernen • Licht an + Hebeldruck Futter • Licht aus + Hebeldruck kein Futter Stimuluskontrolle • Diskriminative Reize kontrollieren die Auftretenswahrscheinlichkeit des Verhaltens Beispiele • Eine Ratte lernt, dass ein Hebeldruck (R) in einem bestimmten Käfig (S) regelmäßig zu Futter (C+) führt. • Eine Katze lernt, dass ein Hebeldruck (R) in einem Käfig (S) dazu führt, dass sich die Tür öffnet (C+). • Ein Kind lernt, dass es durch Schreien (R) im Bett (S) die Aufmerksamkeit der Mutter (C+) erweckt. • Ein Schüler gibt auf eine Frage (S) die richtige Antwort (R) und wird gelobt (C+) O.K. ist Grundlage für zielgerichtetes Verhalten = Verhalten, das nicht direkt durch Reize ausgelöst wird, sondern durch (antizipierte) Konsequenzen gesteuert wird 19 Grundlegende Phänomene • Viele Prinzipien des klassisches Konditionierens gelten auch für das operante Konditionieren – Graduelle Akquisition – Extinktion u. Spontanerholung – Rolle der zeitlichen Kontiguität – Rolle der Kontingenz – Blockierungseffekt – Generalisierung u. Diskrimination Gluck, Mercado and Myers: Learning and Memory, Copyright © 2008 by Worth Publishers Was wird beim operanten Konditionieren gelernt? Werden spezifische Bewegungsmuster gelernt? • Viele Experimente zeigen, dass beim OK nicht spezifische Bewegungsmuster gelernt werden • Lashley (1924): – Ratten mussten durch Labyrinth mit niedrigem Wasser waten, um Futter zu erhalten – Nach erfolgreichem Lernen wurde Wasserspiegel angeboten, so dass Ratten schwimmen mussten – Obwohl völlig anderes Bewegungsmuster fehlerfreies Durchschwimmen des Labyrinth beim 1. Durchgang Welche Assoziationen werden beim instrumentellen Konditionieren gelernt? S-R-Assoziationen? • Thorndike: Verstärker (C+) prägt Assoziation ein, ist aber nicht selbst Bestandteil der Assoziation R-C-Assoziationen? S-R-C-Assoziationen? Evidenz für R-C-Lernen Colwill & Rescorla (1986): Verstärker-Entwertungs-Paradigma S Phase 1 R C Reaktion A Futter Reaktion B Zuckerlösung Stimulus Phase 2 Futter Phase 3 Stimulus Lithiumchlorid (Übelkeit) Reaktion A Reaktion B Tier lernt Assoziation zwischen Reaktion und Verstärker Evidenz für S-R-C-Lernen (Colwill & Delamater, 1995) • Haben Tiere nur R-C-Assoziation gelernt oder lernen sie S-R-C-Assoziation? Ton Reaktion X Futter Licht Reaktion X Zuckerlösung Phase 1 Phase 2 Phase 3 Sättigung mit Zucker Ton Reaktion X Licht Reaktion X Spricht für Lernen der S-R-C-Assoziation Shaping und Verhaltensketten Schrittweise Annäherung (Shaping) • Durch Verstärkung kann eine große Bandbreite unterschiedlicher Verhaltensweisen erzeugt werden • Shaping: ermöglicht es, Verhaltensweisen anzutrainieren, die nicht zum normalen Verhaltensrepertoire eines Lebewesen gehören • Methode: – 1. Abwarten, bis das Lebwesen ein Verhalten zeigt, das in die gewünschte Richtung oder einen Teil des gewünschten Verhaltens beinhaltet Verstärkung – 2. Bewegung tritt häufiger auf – 3. Nur noch Verhalten verstärken, das dem Gewünschten etwas näher kommt – 4. Verhalten zunehmend selektiver verstärken, bis exakt das gewünschte Verhalten gezeigt wird • Anwendung – Tierdressur: „Verkettung“ (chaining) von ganzen Verhaltenssequenzen – Erwerb komplexer Verhaltensmuster in der Verhaltenstherapie Ein Beispiel für Shaping Verhaltensketten (chaining) • • Training von Verhaltenssequenzen durch „Verkettung“ (chaining) Jeder Stimulus dient – – als konditionierter Verstärker für das vorangehende Verhalten und als diskriminativer Hinweisreiz für den folgenden Verhaltensschritt Stimuli Leiter (SD) Platform, Seil (SR, SD) Tür öffnen (SR, SD) Rutsche (SR, SD) Anblick des Hebels (SR, SD) Hebel in Reichweite (SR, SD) Futterpellet (SR) Reaktionen Hochklettern am Seil ziehen durch den Tunnel Rennen Rutsche heruntergleiten zum Hebel rennen Hebel drücken Verstärker und Verstärkungspläne Verstärkung und Verhaltenskontrolle • Skinner: Wie kann Verhalten durch Umweltreize kontrolliert werden? • Methode: Messung der Reaktionsrate von Versuchstieren in der Skinner-Box in Abhängigkeit von den Konsequenzen des Verhaltens • U.V.: Art des „Verstärkers“ und Verstärkungspläne • Was aber ist ein „Verstärker“? • Operationale Definition: Verstärker = jeder Reiz, der die Auftretenswahrscheinlichkeit eines Verhaltens erhöht Arten von Verstärkern Verhaltenskonsequenz Angenehmer Reiz Unangenehmer Reiz Auf die Reaktion folgt ein Reiz Positive Verstärkung (Belohnung) Bestrafung 1. Art Reaktion eliminiert oder vermeidet Reiz Bestrafung 2. Art (Omission training) Negative Verstärkung (Flucht / Vermeidung) Verhaltenskonsequenz Angenehmer Reiz Unangenehmer Reiz Auf die Reaktion folgt ein Reiz Futter, Lob, Geld Schmerz, Tadel Reaktion eliminiert oder vermeidet Reiz Futter, Lob, Geld wird entzogen Schmerz wird beendet Tadel wird nicht erteilt (Die Pfeile geben an, ob die Reaktionsrate zu- oder abnimmt) Primäre und sekundäre Verstärker • Primäre Verstärker – Wirken ohne vorherige Lernerfahrung verstärkend (z.B. Futter, Schmerz) • Sekundäre Verstärker – Neutrale Reize, die durch Paarung mit primären Verstärkern selbst zu Verstärkern werden • Tier: Bestimmter Laut, der mit Futtergabe assoziiert wird • Mensch: Geld • Verstärkungspläne legen fest, wie häufig bzw. nach welchen Zeitintervallen Verstärker gegeben werden Verstärkungspläne Verstärkungspläne Kontinuierlich Intermittierend jede gewünschte Reaktion wird verstärkt Nur einige Reaktionen werden verstärkt Quotenplan Intervallplan Bestimmte Anzahl von Reaktion wird verstärkt Nach einem bestimmten Zeitintervall wird verstärkt Konstant Variabel Konstant Variabel z.B. genau jede 5. Reaktion wird verstärkt z.B. im Durchschnitt wird 1/5 der Reaktionen verstärkt z.B. die erste Reaktion, die nach Ablauf von 5 Minuten erfolgt, wird verstärkt z.B. eine Reaktion wird im Durchschnitt nach 5 Minuten verstärkt Verstärkungspläne Ein Beispiel: Lernverhalten von College-Studenten • Mawhinney et al. (1971): durchschnittliche Zahl von Lernminuten pro Tag (a) tägliche Tests (b) größere Prüfung am Ende einer der Drei-Wochen-Phasen 180 Täglich 3 Wochen Täglich 3 Wochen 120 60 0 2 4 6 8 10 12 14 16 18 20 22 Sitzungen 24 26 28 30 32 34 36 38 40 Kumulative Verhaltensaufzeichnung Beschleunigung Verlangsamung schnelle Reaktionen keine Reaktionen Verstärker langsame Reaktionen Papier bewegt sich langsam in diese Richtung Gluck, Mercado and Myers: Learning and Memory, Copyright © 2008 by Worth Publishers Auswirkungen von Verstärkungsplänen Anzahl von Reaktionen FR: konstante Reaktionsrate bis zur Verstärkergabe u. kurze Pause nach jedem Verstärker FI: nach Verstärkergabe zunächst keine Reaktionen; Zunahme der Reaktionsrate gegen Ende des Intervalls VR: Konstante Reaktionsrate ohne Nachverstärkungspause VI: Konstante Reaktionsrate Auswirkungen von Verstärkungsplänen auf die Löschung • Kontinuierliche Verstärkung: Verhalten wird schnell erworben, wird aber auch schnell wieder gelöscht, wenn Verstärker ausbleibt • Intermittierende Verstärkung viele höhere Löschungsresistenz – Bsp.: Bettelnder Hund am Tisch, der bei jedem 10. Versuch ein Stück Wurst bekommt – Bsp.: Getränkeautomat vs. Spielautomat • Erklärung: Generalisierungsabnahme – Kontinuierliche Verstärkung: Lebewesen hat nie Durchgänge ohne Verstärkung erlebt Lern- und Löschphase sind sehr verschieden – Intermittierende Verstärkung: In Lernphase gibt es viele Durchgänge ohne Verstärker Lern- und Löschphase sind ähnlich • Kognitive Erklärung: Lebewesen lernt, dass u. U. viele Reaktionen zur Erlangung des Verstärkers notwendig sind und bildet entsprechende Erwartungen aus