Fünfte Vorlesung Zur Psychologie des Lernens II: Thorndike, Hull und Skinner Das letzte Mal habe ich Ihnen in aller Eile die Grundprinzipien dessen, was man Klassische Konditionierung nennt, dargestellt: Also: das Verfahren selbst, dann die Löschung, spontane Erholung, Reizgeneralisierung, Reizdiskrimination, experimentelle Neurosen, schließlich auch die Konditionierungen höherer Ordnung. Sie werden sehen: alles das werden wir heute wieder brauchen. Bevor ich Sie aber weiter in die Lernpsychologie (und damit auch weiter in die Geschichte des Behaviorismus) einführen werde, möchte ich noch ein paar Bemerkungen zur Klassischen Konditionierung nachtragen. Vielleicht haben einige unter Ihnen sich nach meiner Darstellung der Pawlowschen Experimente gefragt, was denn das eigentlich mit Psychologie zu tun haben soll. Das ist vielleicht zur Erziehung von Haustieren ganz nützlich – aber sonst? Nun, ganz so ist es wieder auch nicht. Z. B. können bestimmte Aspekte des Spracherwerbs durch das Modell der Klassischen Konditionierung gut erklärt werden: z. B. das Lernen konnotativer Bedeutung von Wörtern: Wir können uns den Sachverhalt zunächst einmal allgemeine formulieren: Wenn ein bestimmtes Wort (das Wort fungiert als S0) mehrmals gleichzeitig oder kurz hintereinander mit einem bestimmten Reiz (UCS) auftritt, dann wird die zunächst nur vom Reiz UCS) ausgelöste Reaktion auch vom Wort allein hervorgerufen. Also: Sie streicheln z. B einem Kleinkind über den Kopf und sagen dazu: Super! Das Streicheln löst positive Gefühle, also eine positive Reaktion aus. Wir können es als UCS auffassen, die positive Reaktion entsprechend als UCR. Nach mehrmaliger gleichzeitiger Darbietung mit dem UCS ruft schließlich auch der ursprünglich neutrale Reiz („Super“) allein (also ohne Streicheln!) die positive Reaktion (wenn auch abgeschwächt!) aus. Aus dem S0 ist also ein CS geworden. Vor allem für die Sozialpsychologie, aber auch für die Medien- und Werbepsychologie bedeutsam sind in diesem Zusammenhang Konditionierungen höherer Ordnung: Konnotationen werden nicht mehr ausschließlich von Reizen (Streicheln) auf Wörter („super“), sondern auch von Wörtern auf Wörter übertragen. Z. B.: Ein zunächst neutrales Wort, das mehrmals unmittelbar vor oder nach positiv konnotierten Wörtern (z. B: „super“) dargeboten wird, erhält dadurch selbst eine positive Konnotation. Damit haben wir einen auch in der Pawlowschen Theorie hoch interessanten Bereich betreten: Stellen Sie sich vor, Sie erhalten eine schreckliche Nachricht. Egal, wie Ihnen diese Nachricht vermittelt wird: ob per Telefon (Sinnesmodalität Hören), oder durch ein Telegramm (Sinnesmodalität Sehen): sie wird eine starke Reaktion auslösen: z. B.: Sie werden kreidebleich und beginnen zu weinen. Es ist wichtig, dass Sie sehen, dass diese Reaktion 1 allein durch den Inhalt, die Bedeutung der Nachricht ausgelöst wird (der physikalische Reiz und die Sinnesmodalität spielen dabei keine Rolle!). Also allgemein: Sprachsymbole können eine starke Reaktion hervorrufen. Sprachsymbole sind für Pawlow nichts anderes als Signale von Signalen; er spricht deshalb von einem zweiten Signalsystem, das die Wirkungen der Signale erster Ordnung – bis zu einem gewissen Grade – hemmen und regulieren kann. In diesem Kontext gut empirisch untersucht ist z. B. das, was man als semantische Generalisation bezeichnet. Das Prinzip ist sehr einfach: Die auf ein bestimmtes Wort erfolgte Konditionierung wird auf andere, - und das ist jetzt entscheidend – inhaltlich ähnliche Wörter generalisiert. Lautliche Ähnlichkeit (das würde einer Ähnlichkeit der Reize entsprechen) spielt dabei keine Rolle. In der Psychologie zu einiger Bekanntheit gelangt ist ein Experiment, das die russische Psychologin W. D. Wolkowa mit einem dreizehnjährigen Jungen durchgeführt hat: Das russische Wort choroscho (gut) wurde dabei mit einem unmittelbaren Auslöser für Speichelfluss (!) gekoppelt. Danach wurde überprüft, inwieweit ganze Sätze, deren Bedeutung von Bürgern der UDSSR gemeinhin als gut bezeichnet wurden, ebenfalls eine bedingte Reaktion auslösen konnten. Sätze wie „Die sowjetische Armee war siegreich“ oder: „Der Pionier hilft seinen Kameraden“ hatten stärkeren Speichelfluss zur Folge als der ursprüngliche CS, also das Wort choroscho. Das Experiment zeigt also zweierlei: erstens den Aufbau einer Konditionierung höherer Ordnung, wobei zweitens die Reaktion von dem CS mit UCS Funktion – einem einzigen Wort – auf einen ganzen Satz übertragen wurde. Ich habe Ihnen das letzte Mal gezeigt, dass Watson, als er die Pawlowsche Methode des bedingten Reflexes für sich entdeckte, endlich jenes Werkzeug in den Händen zu halten glaubte, um die Möglichkeit einer Psychologie ohne Bewusstsein nicht nur behaupten, sondern auch experimentell demonstrieren zu können. Diese Rolle der russischen Physiologie in Watsons Programmatik ist bemerkenswert, weil etwa zur gleichen Zeit, als Pawlow seine Untersuchungen über den bedingten Reflex begann, in den USA selbst ein neues Lernparadigma entwickelt worden ist, dessen Brauchbarkeit für die Entwicklung einer behavioristischen Psychologie offenbar aber erst allmählich erkannt wurde. Mag sein, dass der Hauptgrund dafür darin zu sehen ist, dass es Edward Lee Thorndike in seiner nachmals so berühmt gewordenen Dissertation über „Animal Intelligence: An Experimental Study of Associative Processes in Animals“ primär eigentlich um den Nachweis erblich bedingter Differenzen in der Ausbildung neuer Verhaltensweisen gegangen war. Von erblich bedingten Differenzen wollte ein radikaler Milieutheoretiker wie John Broadus Watson natürlich nichts wissen. Thorndike war ein Forscher, der auf den Entwicklungsgang der amerikanischen Psychologie in der ersten Hälfte des 20. Jahrhunderts einen überragenden Einfluss ausgeübt hat – und das, 2 obwohl er gerade kein Behaviorist war. Das, was Thorndike vor allem in die amerikanische Psychologie eingebracht hat, war sozusagen die Demonstration, dass der Anspruch auf strenge Wissenschaftlichkeit (d. h. der Anspruch auf Naturwissenschaftlichkeit) psychologischer Forschung und der Anspruch auf unmittelbar praktische Relevanz der Ergebnisse dieser Forschung durchaus glaubhaft zusammen vertreten werden konnten. Eben daran waren aber auch Watson und die Neobehavioristen und radikalen Behavioristen nach ihm interessiert. Thorndikes frühe Tierexperimente von 1898, und da vor allem seine Experimente mit Katzen, sind in die Geschichte der Psychologie eingegangen. Thorndike hat hungrige Katzen in einen Käfig aus Holzlatten gesperrt. Die Katzen konnten diesem Käfig („puzzle-box“) entkommen und einen Futternapf erreichen, wenn sie den Riegel einer Tür öffneten. Dazu mussten sie – je nach Konstruktion der puzzle-box, einen bestimmten Mechanismus oder mehrere Mechanismen hintereinander mit ihren Pfoten auslösen. In der folgenden Abbildung sehen Sie eine einfache Puzzele-Box. Die Katze muss mit der Pfote am Seil ziehen, um aus dem Käfig entfliehen zu können. Also. Wir sperren eine Katze hinein. Was wird sie tun? Sie wird alles „ankrallen“, was sie mit ihren Pfoten erwischt – irgendwann wird die dann zufällig auch das Seil mit der Pfote herunterziehen, also allgemein: den Mechanismus betätigen, der die Tür öffnet. Setzt man jetzt dieselbe Katze immer wieder in dieselbe puzzle-box, so wird die Menge unnützer Versuche stetig abnehmen, die Katze wird immer weniger unnütze Bewegungen verschwenden, bis sie den Käfig zu öffnet. Die unnützen Bewegungen werden sozusagen Schritt für Schritt gelöscht, der besondere Impuls, der zur erfolgreichen Ausführung führt, wird durch die erreichte Befriedigung eingeprägt, bis die Katze schließlich nach vielen Durchgängen, wenn sie erneut in den Käfig gesteckt wird, sofort – also ohne Umweg, den richtigen Mechanismus betätigt. Die Katzen „lernten“ also durch „trial and error, and accidental success“. Der Erfolg eines Bewegungsablaufs – genauer die dadurch erreichte Befriedigung, oder, wie Thorndike es später nannte, die dadurch erreichte Zufriedenheit („satisfaction“), bewirkt, dass dieser Bewegungsablauf „eingeprägt“, gelernt wird. Dieses Prinzip nannte Thorndike „the law of effect“ (Gesetz des Effekts). Versuchen wir uns, dieses Gesetz möglichst allgemein zu formulieren: Die Versuchstiere lernen, bestimmte Situationen mit Aktionen zu verknüpfen. Solche mit Situationen verknüpfte Aktionen nannte Thorndike „habits“, „Gewohnheiten“. Habits entstehen, indem unter verschiedenen Aktionen, die auf dieselbe Situation hin ausgeführt werden, diejenigen stärker mit der Situation verknüpft werden, die von einem für das Tier 3 befriedigenden Zustand begleitet oder innerhalb kurzer Zeit gefolgt werden. Zudem hängt die die Bildung von Habits natürlich aber auch von der Häufigkeit ab, mit der diese bestimmte Aktion in einer bestimmten Situation ausgeführt werden kann, also von der Anzahl der Lerndurchgänge: Dieses zweite Gesetz nannte Thorndike law of exercise, das Gesetz der Übung. Es ist wichtig, den Unterschied zur Pawlowschen Theorie zu sehen. Pawlows Konzept des bedingten Reflexes fokussiert auf die Verknüpfung zweier Reize (CS und UCS); in Thorndikes Konzept, für das sich der amerikanischen Psychologie später der Begriff der „instrumentellen Konditionierung“ durchgesetzt hat, bezieht sich Lernen auf die Verknüpfung von situativen Bedingungen (also Reizen) und Reaktionen darauf. Was ist die richtige Lerntheorie? Sind beide Paradigmen in einer einheitlichen Lerntheorie zu vereinigen? Oder schließen die beiden Ansätze einander aus. In diesem Zusammenhang sind zum Teil sehr komplexe theoretische Systeme entstanden; am wichtigsten, weil in wissenschaftstheoretischer Hinsicht voll auf der Höhe der Zeit der theoretischen Diskussionen in den fortgeschrittenen naturwissenschaftlichen Disziplinen, ist das von Clark L. Hull entwickelte System einer allgemeinen Theorie des Verhaltens. In seinem Versuch der Vereinheitlichung der beiden Lern-Paradigmen spielen dann im weitesten Sinne motivationale Momente eine entscheidende Rolle. Dabei lieferte das von Hull entwickelte Modell zunächst nichts anderes als eine begriffliche Präzisierung der Thorndikeschen Gesetz des Effekts. Das zentrale Konzept war das des Triebes (drive): Ganz gleich, ob ein Verknüpfung von zwei Reizen oder eine Verknüpfung von Reiz und Reaktion „gelernt“ wird: der Lernprozess hat immer einen inneren Antriebszustand zur Voraussetzung. Im Grunde ist das, was Hull unter einem Drive versteht, ein physischer Mangelzustand: Im Organismus hat sich ein für sein Überleben optimales Gleichgewicht der physiologischen Vorgänge verschoben. Dieser Triebzustand kann als eine Art unspezifische Erregung oder Aktivierung vorgestellt werden, mit der bestimmte innere Reizereignisse verbunden sind, die den Organismus gleichsam über seinen Zustand informieren. Für den in quantitativer Hinsicht variablen Triebzustand steht im Hullschen System der Buchstabe D; für den Triebreiz SD. Unter gegebenen Reizbedingungen (z. B. Käfig) zeigt der Organismus eine Fülle von motorischer Aktivität; jene Verhaltensfolgen, die zu einer Reduktion des Triebzustandes führen, werden dadurch, dass sie eben triebreduzierend wirken, also den Mangelzustand aufheben, bekräftigt: „Bekräftigung“ erfolgt also durch Triebreduktion. In seinem späteren Modell hat Hull zudem auch noch ein zweite, vom Triebzustand unabhängige motivationale Komponente eingeführt: den Anreiz K, der von einer bestimmten Bekräftigungssituation ausgeht. 4 Machen wir uns klar, worum es Hull eigentlich zu tun ist: Hull will mit seinem System präzise voraussagen, wann ein bestimmtes Verhalten auftritt und wann nicht. Das Auftreten eines Verhaltens hängt also grundsätzlich von Lernprozessen ab, die sich in der beschriebenen Art vollziehen sollen. Durch Bekräftigung durch Triebbefriedigung wird die Verknüpfung von Reizen mit Reaktionen, also die Ausbildung von Habits gelernt. Die Habitstärke kann – und zwar in Abhängigkeit von der Anzahl der Lerndurchgänge – variieren. Sie soll sich im übrigen mathematisch exakt berechnen lassen. Und zwar aufgrund des folgenden gesetzmäßigen Zusammenhangs: Wenn Bekräftigungen in gleichmäßigen Abständen einander folgen, wächst – unter sonst gleichen Bedingungen – die Gewohnheit H als beschleunigte Funktion der Zahl von Wiederholungen, und zwar nach der Gleichung H = 1 – 10 –0,0305N Ob ein Organismus in einer bestimmten Situation ein bestimmtes Verhalten zeigt oder nicht zeigt, hängt also ab von der Habitstärke; jetzt kommen als Variable noch die motivationalen Komponenten hinzu: also die jeweils bestehende Intensität der Triebstärke D und die Stärke des Anreizes K; schließlich muss in dem Modell auch noch berücksichtigt werden, dass auch die Intensität des Auslöserreizes (I) variabel ist. Wie sollen diese Bestimmungsgrößen zusammen wirken? Hull glaubte experimentell zeigen zu können, dass sich die Intensitäten der einzelnen Variablen gegenseitig verstärken. Dem wird schließlich mit einer multiplikativen Funktion Rechnung getragen: E steht in der Gleichung für Reaktionspotential E=HxDxIxK Das mag zur sehr oberflächlichen Orientierung über das Hullsche System genügen. Ich kann Sie beruhigen. Alles das, was jetzt noch folgt, dem ist vergleichsweise leicht zu folgen. Dass hat vor allem damit zu tun, dass jener Forscher, der schließlich die für die Psychologie des Lernens einflussreichste Weiterentwicklung des Behaviorismus geliefert hat, ein erklärter Gegner jeder Art von theoretischer Konstruktion war. Skinners Theorie besticht sozusagen durch ihre Einfachheit und Plausibilität – und durch die Radikalität, mit der jede Bezugnahme auf innere Vorgänge im Organismus vermieden wird. In Skinners Forschungsprogramm lässt sich am leichtesten einführen, wenn man sich auf die Versuchsanordnung bezieht, die er zur experimentellen Demonstration seines Ansatzes 5 erfunden hat: In der folgenden Abbildung sehen Sie die berühmt-berüchtigte SkinnerBox. Was fehlt, ist nur die weiße Ratte, die da drin herumturnt. Sie sehen, das ist eine sehr einfache Einrichtung. Das entscheidende Ding in diesem Käfig ist der Hebel. Um den wird sich alles drehen. Also: Wir setzen eine Ratte in die Box, und sie wird da drinnen alles Mögliche machen: Herumschauen, an den Wänden kratzen, herumschnuppern, vielleicht auch einmal ihr Geschäft verrichten; gelegentlich wird sich auch einmal auf den Hebel drücken. Wir schauen ihr einfach zu dabei, und zählen, wie oft sie das Verhalten Hebel drücken in einer gegebenen Zeiteinheit zeigt. (Ein Vorteil der ganzen Versuchsanordnung ist, dass wir der Ratte bei der ganzen Prozedur eigentlich gar nicht zuschauen müssen: alles, was uns interessiert, ist, wann und wie oft sie den Hebel drückt – und das können wir durch eine entsprechende Apparatur einfach automatisch aufzeichnen lassen). Wir bestimmen damit, um gleich einmal einen Fachterminus einzuführen, die Grundhäufigkeit dieses Verhaltens – die Basisrate. Dann können wir mit dem eigentlichen Experiment beginnen: Nach jedem Hebeldrücken fällt jetzt eine kleine Futterpille in den Futternapf. Dadurch beginnt sich die Häufigkeit dieses Verhaltens zu ändern. Die Auftrittshäufigkeit steigt zunächst rasch an, dann immer langsamer, bis sozusagen wieder eine konstante Häufigkeit erreicht ist, die jetzt aber deutlich höher liegt als die Basisrate. Es handelt sich dabei also wiedereinmal um einen uns jetzt schon sattsam bekannten negativ bescheunigten Kurvenverlauf. Wenn wir dann von einem bestimmten Zeitpunkt an die Verabreichung von Futterpillen einstellen, dann wird die Häufigkeit des Hebeldrückens wieder absinken, bis schließlich wieder die ursprüngliche Basisrate erreicht ist. Es wird Sie nicht weiter überraschen, dass dieser Vorgang als Extinktion bezeichnet wird. Der gesamte Vorgang lässt sich grafisch in etwa wie folgt darstellen. Damit ist auch schon das Prinzip der sogenannten operanten Konditionierung dargestellt. Um diesen Begriff zu erklären, müssen wir nochmals zurück zu jenem Punkt der heutigen Vorlesung, von dem aus ich Ihnen die Theorie des Verhaltens von Hull entwickelt habe. Hull war es, so habe ich argumentiert, um eine Vereinheitlichung der beiden experimentellen Paradigmen von Pawlow und Thorndike zu tun gewesen. Eben diesen Weg wollte Skinner nicht gehen. Er beharrte darauf, dass es sich dabei um zwei verschiedene Sachverhalte handelte. Pawlow hat in seinen Experimenten Verhalten untersucht, das an bestimmte Auslöserreize gebunden ist – also Reflexe; Thorndike hingegen Verhalten, das irgendwie zum spontanen Verhaltensrepertoire des Versuchstieres zählt. Letzteres bezeichnete Skinner als Operanten. Operanten sind also einfach und präzise zu definieren: Es handelt sich um Verhaltensweisen, die an keine Auslöserreize gebunden sind, in diesem Sinne also spontan auftreten. Der Unterscheidung von Reflexen und Operanten entsprechen dann nach Skinner zwei verschiedene Arten von Konditionierung: Konditionierung vom Typ S (respondente Konditionierung = klassische Konditionieriung nach Pawlow) und Konditionierung vom Typ R (= operante Konditionierung) 6 Skinner wollte ursprünglich eigentlich Schriftsteller werden. Für kurze Zeit hat er dann auch als Journalist gearbeitet, bevor er in Havard Psychologie zu studieren begann. Seine schriftstellerische Begabung (ein Begriff den Skinner selbst wohl abgelehnt hätte) und auch sein trockener Humor trugen viel zur überragenden Wirkung seiner Schriften in Psychologie bei. Wie Watson, so hat auch Skinner seine radikale Version des Behaviorismus als eine Art Universalmittel zur Lösung aller sozialen Probleme angeboten. 1948 ließ er einen viel gelesen utopischen Roman erscheinen, den er in Anspielung Henry David Thoreaus Klassiker Walden oder Leben im Wald (1854) – Walden Two betitelte. Darin wird eine Gemeinschaft beschrieben, die ihr Zusammenleben ganz nach den von Skinner beschriebenen Gesetzten der behavioristischen Lerntheorie regelte. (Im übrigen gibt es seit 1973 in Mexiko eine Art Kommune, eine Communidad Los Horncones, die Skinners Visionen eines behavioristisch kontrollierten Zusammenlebens zu verwirklichen sucht. Einen weit über die engen Fachgrenzen hinaus gehenden Leserkreis fand schließlich auch sein Buch: Beyond Freedom and Dignity aus dem Jahr 1971, das 1973 auf Deutsch unter dem Titel: Jenseits von Freiheit und Würde erschien. Skinner erhielt 1948 einen Ruf an die renommierte Havard University, wo er bis zu seinem Lebensende lehrte. Doch jetzt zurück zur Skinner-Box und zu Skinners operanter Konditionierung! Skinner hat nicht nur mit Ratten, sondern vor allem auch mit Tauben experimentiert. Hier sehen sie ein typische Skinner-Box für Tauben. Die Taube drückt keinen Hebel, sondern pickt mit dem Schnabel auf eine Scheibe. Das Prinzip bleibt sich also gleich. Wir haben gesehen, dass, wenn unmittelbar auf das erwünschte Verhalten (Hebeldrücken, Scheibenpicken) eine Futterpille verabreicht wird, die die Häufigkeit des Verhaltens zunimmt. Die Futterpille stellt also einen positiven Reiz dar; man sagt auch Verstärker. Den Vorgang selbst nennt man positive Verstärkung. Allgemein formuliert: Ein positiver Reiz, der auf ein Verhalten folgt, erhöht die Auftrittswahrscheinlichkeit dieses Verhaltens. Die Auftrittswahrscheinlichkeit eines Verhaltens kann auch dadurch erhöht werden, dass auf dieses Verhalten ein negativer Reiz, ein aversiver Reiz, endet oder entfernt wird. Man spricht dann von negativer Verstärkung: Allgemein: Die Auftrittswahrscheinlichkeit eines gewünschten Verhaltens steigt, wenn auf dieses Verhalten die Ausblendung eines aversiven Reizes (z. B. Stromschlag) folgt. Aversive Reize, die auf ein bestimmtes Verhalten hin folgen, bewirken eine Abnahme der Verhaltenshäufigkeit. Man spricht von Bestrafung. Genauer: von Bestrafung vom Typ 1 („positive Bestrafung“). Unter Bestrafung vom Typ 2 („negative Bestrafung“) versteht man, dass ein positiver Reiz infolge des Auftretens einer bestimmten Verhaltensweise entfernt wird. 7 Damit sind die wenigen Grundbegriffe, mit denen Die Skinnersche Theorie auskommt, auch schon eingeführt. Die bisher getroffenen Unterscheidungen sind in der folgenden Abbildung dargestellt. Ein grüner Pfeil, der nach oben zeigt, bedeutet Erhöhung der Auftrittswahrscheinlichkeit, ein roter Pfeil, der nach unten zeigt, Senkung der Auftrittswahrscheinlichkeit eines Verhaltens. Viele Alltagssituationen lassen sich in diesen Termini (in den Termini von positiver und negativer Verstärkung bzw. von Bestrafung) erklären. Spektakulär sind vor allem Experimente, in denen gezeigt wird, dass auch so komplexe Sachverhalte, wie etwa die Häufigkeit, mit der eine Person in einem Gespräch spontan bestimmte Themen anspricht, sich nach der am Paradigma der Skinner-Box entwickelten Prinzipien konditionieren sind. Man spricht in diesem Zusammenhang von verbalem Konditionieren. Das ist übrigens wieder ein Vorgang, den Sie leicht in Alltagssituationen überprüfen können. Ein typisches Experiment zum verbalen Konditionieren ist in etwa wie folgt aufgebaut: Der Vl führt ein einfaches Gespräch mit der Vpn (ca 10 min), greift selbst nicht ein – Basisrate bestimmter Sätze wird festgestellt. Dann beginnt die Prozedur. Bestimmte erwünschte Sätze (z. B. Sätze, in denen die Vp über sich erzählt) werden positiv verstärkt (und zwar durch Zuwendung: Nicken mit dem Kopf, beifälliges „Ja“ etc.), alle anderen Sätze nicht. Die Häufigkeit entsprechender Sätze nimmt zu. Nach etwa wieder 10 min. Beginn mit der Extinktion – positive Verstärkung wird eingestellt, Häufigkeit der gewünschten Sätze sinkt wieder auf die Basisrate ab. Wie beim Klassischen Konditionieren sind jetzt auch beim operanten Konditionieren die Prozesse von Generalisation und Diskrimination zu demonstrieren. Z. B. kann man, wenn man mit Tauben arbeitet, etwa wie folgt vorgehen: Während der Lernphase werden Tauben positiv verstärkt, wenn sie auf eine leuchtende Scheibe picken. Die Scheibe leuchtet immer in derselben Farbe, z. B. gelbgrün. In der anschließenden Extinktionsphase wechselt die Lichtfarbe der Scheibe ständig und in zufälliger Reihenfolge. Das erwünschte Verhalten tritt beim ursprünglichen Reiz am häufigsten auf, bei ähnlichen Reizen (z. B. gelb oder grün) schon etwas weniger. Je unähnlicher die Lichtfarbe dem ursprünglichen Reiz ist, desto seltener pickt die Taube auf die Farbscheibe. Das komplementäre Phänomen zur Genralisation ist die Diskrimination. Wir unterziehen die Tauben jetzt einem Diskriminationstraining, das dazu führen soll, dass das gewünschte Verhalten nur in Gegenwart eines bestimmten Reizes, also reiz- oder situationsspezifisch auftreten soll. Man geht dabei folgendermaßen vor. Schon während der Lernphase ändert sich die Lichtfarbe der Pickscheibe häufig und in zufälliger Reihenfolge. Das Picken auf die 8 Scheibe wird jetzt aber nur dann verstärkt, wenn die Scheibe gelbgrün leuchtet. Die gelbgrüne Lichtfarbe wird somit zu einem diskriminativen Reiz SD. Nach dem Diskriminationslernen tritt das Verhalten mit großer Häufigkeit nur in Anwesenheit des SD bzw. – wenn auch entsprechend weniger häufig – in Anwesenheit von Reizen, die dem SD ähnlich sind, auf. Bei allen anderen Lichtreizen praktisch nicht mehr. Die Tauben haben also gelernt, das ihr Verhalten nur beim Vorliegen bestimmter Reizgegebenheiten, nicht jedoch bei anderen eine Wirkung hat. (Vorsicht: diese Terminologie hätte Skinner, weil sie mentalistisch ist, scharf von sich gewiesen. Eine wichtige Unterscheidung in der Skinnerschen Theorie ist die zwischen primären und sekundären Verstärkern. Primäre Verstärker sind solche Reize, deren verstärkende Wirkung schon vor jeder Lernerfahrung vorhanden ist: z. B. Nahrung, Wasser etc. Mit Hull könnten wir sagen, dass sie physiologische Bedürfnisse befriedigen: eben Hunger, Durst etc. Den Ausdruck „Bedürfnis“ hat Skinner natürlich vermieden. Alle Beispiele aus Tierversuchen, die wir bis jetzt besprochen haben, hatten mit solchen primären Verstärkern (Futter) zu tun gehabt. Im Experiment zum verbalen Konditionieren allerdings haben wir schon eine andere Art von Verstärker kennen gelernt. „Zuwendung“ befriedigt keine physiologischen Bedürfnisse – sie ist kein primärer, sondern ein sekundärer Verstärker. Sekundäre Verstärker sind ursprünglich neutrale Reize – also Reize, die, wenn sie auf ein bestimmtes Verhalten folgen, auf die weitere Auftrittswahrscheinlichkeit dieses Verhaltens nicht beeinflussen. Wie aber erhalten diese ursprüngliche neutralen Reize sozusagen Verstärkerfunktion? Durch Typ S-Konditionierung, also durch klassische Konditionierung. Allgemein formuliert: Ein an sich neutraler Reiz wird durch häufige gemeinsame Darbietung mit einem primären Verstärker zu einem sekundären Verstärker, der nun selbst die Auftrittswahrscheinlichkeit eines Verhaltens zu verstärken vermag. Z. B. Ratte in der Skinner-Box. Die Verabreichung jeder Futterpille wird mit einem Geräusch verbunden. Nach mehreren Wiederholungen wirkt das Geräusch allein als Verstärker. Auf der Theorie der sekundären Verstärker baut letztlich auch das Prinzip der so genannten „token economies“ auf, das in klinischen Zusammenhängen, vor allem in der Psychiatrie eingesetzt wird: Erwünschte Verhaltensweisen der Patienten (z. B. in Bezug auf Körperhygiene oder Medikamenteneinnahme) werden durch das Pflegepersonal mit Gutscheinen oder Münzen verstärkt, die die PatientInnen dann gegen eine Reihe von Vergünstigungen und Belohnungen eintauschen können. Nicht nur materielle Belohnungen oder (wie beim verbalen Konditionieren) persönliche Zuwendungen wirken verstärkend, sondern auch Aktivitäten: Eine Aktivität, die gerne ausgeführt wird, (=Aktivität mit hoher Auftrittswahrscheinlichkeit) kann als Verstärker für die Durchführung einer weniger beliebten Aktivität (=Aktivität mit niederer 9 Auftrittswahrscheinlichkeit) eingesetzt werden. Das ist natürlich ein sehr banales Prinzip, dass Sie aus dem Alltag gut kennen: Die Aussicht auf Freizeit und Spielen wirkt positiv verstärkend auf das Hausaufgaben machen. Man spricht in diesem Zusammenhang vom Premack-Prinzip, das nach seinem Entdecker, dem Psychologen David Premack benannt ist. In meiner bisherigen Darstellung bin ich implizit immer davon ausgegangen, dass beim operanten Konditionieren jedes Auftreten des gewünschten Verhaltens verstärkt wird. Das kann, muss aber nicht der Fall sein. Wenn ein Verhalten nur manchmal verstärkt wird, führt das trotzdem zu einer Ansteigen der Sauftrittswahrscheinlichkeit. Die Art und Weise, wie verstärkt wird, bezeichnet man mit dem Terminus Verstärkerplan. Wird jedes Auftreten des gewünschten Verhaltens verstärkt, spricht man von einem kontinuierlichem Verstärkerplan. Wird nicht jedes Auftreten verstärkt, so nennt man das entsprechend einen „intermittierenden Verstärkerplan“ Folie: Prinzip der kontinuierlichen Verstärkung Es gibt mehrere Möglichkeiten, intermittierend zu verstärken: Man kann die Verstärkung erst nach einer bestimmten Anzahl von Reaktionen geben (z. B. nur jeder vierte Operant wird verstärkt) – „Quotenplan“, oder man gibt die Verstärkung jeweils für die erste Reaktion nach dem Ablauf eine bestimmten Zeitinterinvalls – „Intervallplan“. Quotenpläne und Intervallpläne können fix (fest) oder variabel gestaltet werden. Bei festen Plänen erfolgt die Vertärkung völlig regelmäßig: also jeder vierte Operant wird verstärkt (fest Quotenplan); genau nach Ablauf von z. B. 5 Minuten wird jeweils die erste Reaktion verstärkt (fester Intervallplan). Bei variablen Plänen wird unregelmäßig verstärkt – d.h. nur im Durchschnitt wird jeder fünfte Operant verstärkt: 4 – 9 – 13 – 20 – 25 – 32 – 36 – 41 – usw. (variabler Quotenplan). Ähnlich ist es dann beim variablen Intervallplan: Das Zeitintervall, nach dem der erste Operant verstärkt wird, beträgt nicht immer genau z. B. 300 sec. (also 5 Minuten), sondern nur im Durchschnitt: also 280 – 330 – 260 – 310 usw. Die Untersuchung der Wirkungen verschiedener Verstärkerpläne gibt ein recht hübsches und im übrigen sehr umfangreiches Forschungsprogramm ab. Allgemein lässt sich festhalten: Intermittierende Verstärkerpläne unterscheiden sich in ihrer Wirkung von kontinuierlichen Verstärkerplänen in zweierlei Hinsicht: in bezug auf die Lerngeschwindigkeit und in Bezug auf die Extinktionsresistenz Bei kontinuierlicher Verstärkung wird rascher gelernt als bei intermittierender Verstärkung: In der Lernphase nimmt also die Auftrittswahrscheinlichkeit eines gewünschten Verhaltens 10 bei kontinuierlicher rascher zu (steigt steiler an), als bei intermittierender Verstärkung. Ähnliches gilt gleichsam auch für die Extinktionsphase: Bei intermittierenden Plänen geht die Extinktion langsamer vor sich. Allgemein formuliert: Intermittierende Verstärkung führt – im Vergleich zu kontinuierlicher Verstärkung – zu löschungsresistenterem Verhalten. Diese Zusammenhänge zwischen Verstärkerplan und Lerngeschwindigkeit bzw. Löschungsresistenz sind in der folgenden Grafik anschaulich gemacht. Wir können jetzt auch noch nach den Unterschieden in der Wirkung der verschiedenen Arten von intermittierender Verstärkung fragen. Grundsätzlich lässt sich darüber in etwa folgendes festhalten: 1. Quotenpläne führen im allgemeinen zu einer höheren Verhaltenshäufigkeit als Intervallpläne 2. Variable Pläne haben gegenüber festen Plänen ein über die Zeit gesehen relativ stabile Verteilung der Verhaltenshäufigkeiten zur Folge. Bei festen Plänen kommt es hingen immer wieder zu zyklischen Phänomenen: die Häufigkeit des Verhaltens steigt z. B. bei fester Intervallverstärkung kurz vor Ablauf des Zeitintervalls an; nach der Verstärkung legen die Versuchstiere eine Art Pause ein. 3. Variable Pläne ziehen eine langsamere Lerngeschwindigkeit und einer höhere Löschungsresistenz nach sich als feste Pläne. In Bezug auf alltägliche Fragestellungen interessiert natürlich die Löschungsresistenz besonders. Löschungsresistenz bedeutet – wenn ich das ganz salopp formulieren darf – dass ein gelerntes Verhalten auch ohne weitere Verstärkung über lange Zeit noch beibehalten wird. Den Nachteil der langsamen Lerngeschwindigkeit werden Eltern z. B. dagegen gerne in Kauf nehmen – oder über eine zumeist unbewusst ohnehin eingesetzte optimale Lernstrategie ausgleichen. Wenn ein kleines Kind gerade dabei ist, irgendetwas Besonderes zu lernen – z. B. sich selbst einen Pullover richtig anzuziehen – dann werden die Eltern es anfangs jedes Mal, wenn es das richtig hinkriegt, loben. Später wird die Häufigkeit des Lobes für’s richtige Pulloveranziehen immer geringer werden (heute lobt uns dafür überhaupt niemand mehr). Das entspricht sozusagen einem optimalen Verstärkungsplan. Zum Aufbau des gewünschten Verhaltens kontinuierliche Verstärkung, dann Übergang zu einer über einen langen Zeitraum hinweg ständig abnehmenden intermittierenden, variablen Verstärkung zur Verhaltensstabilisierung. Das mag für heute genügen. Ich danke Ihnen für Ihre Aufmerksamkeit. 11