Psychologie des Lernens II_Skriptum

Fünfte Vorlesung
Zur Psychologie des Lernens II:
Thorndike, Hull und Skinner
Das letzte Mal habe ich Ihnen in aller Eile die Grundprinzipien dessen, was man Klassische
Konditionierung nennt, dargestellt: Also: das Verfahren selbst, dann die Löschung, spontane
Erholung, Reizgeneralisierung, Reizdiskrimination, experimentelle Neurosen, schließlich
auch die Konditionierungen höherer Ordnung. Sie werden sehen: alles das werden wir heute
wieder brauchen. Bevor ich Sie aber weiter in die Lernpsychologie (und damit auch weiter in
die Geschichte des Behaviorismus) einführen werde, möchte ich noch ein paar Bemerkungen
zur Klassischen Konditionierung nachtragen. Vielleicht haben einige unter Ihnen sich nach
meiner Darstellung der Pawlowschen Experimente gefragt, was denn das eigentlich mit
Psychologie zu tun haben soll. Das ist vielleicht zur Erziehung von Haustieren ganz nützlich –
aber sonst? Nun, ganz so ist es wieder auch nicht. Z. B. können bestimmte Aspekte des
Spracherwerbs durch das Modell der Klassischen Konditionierung gut erklärt werden: z. B.
das Lernen konnotativer Bedeutung von Wörtern: Wir können uns den Sachverhalt zunächst
einmal allgemeine formulieren: Wenn ein bestimmtes Wort (das Wort fungiert als S0)
mehrmals gleichzeitig oder kurz hintereinander mit einem bestimmten Reiz (UCS) auftritt,
dann wird die zunächst nur vom Reiz UCS) ausgelöste Reaktion auch vom Wort allein
hervorgerufen. Also: Sie streicheln z. B einem Kleinkind über den Kopf und sagen dazu:
Super! Das Streicheln löst positive Gefühle, also eine positive Reaktion aus. Wir können es
als UCS auffassen, die positive Reaktion entsprechend als UCR. Nach mehrmaliger
gleichzeitiger Darbietung mit dem UCS ruft schließlich auch der ursprünglich neutrale Reiz
(„Super“) allein (also ohne Streicheln!) die positive Reaktion (wenn auch abgeschwächt!) aus.
Aus dem S0 ist also ein CS geworden.
Vor allem für die Sozialpsychologie, aber auch für die Medien- und Werbepsychologie
bedeutsam sind in diesem Zusammenhang Konditionierungen höherer Ordnung:
Konnotationen werden nicht mehr ausschließlich von Reizen (Streicheln) auf Wörter
(„super“), sondern auch von Wörtern auf Wörter übertragen. Z. B.: Ein zunächst neutrales
Wort, das mehrmals unmittelbar vor oder nach positiv konnotierten Wörtern (z. B: „super“)
dargeboten wird, erhält dadurch selbst eine positive Konnotation.
Damit haben wir einen auch in der Pawlowschen Theorie hoch interessanten Bereich betreten:
Stellen Sie sich vor, Sie erhalten eine schreckliche Nachricht. Egal, wie Ihnen diese Nachricht
vermittelt wird: ob per Telefon (Sinnesmodalität Hören), oder durch ein Telegramm
(Sinnesmodalität Sehen): sie wird eine starke Reaktion auslösen: z. B.: Sie werden
kreidebleich und beginnen zu weinen. Es ist wichtig, dass Sie sehen, dass diese Reaktion
1
allein durch den Inhalt, die Bedeutung der Nachricht ausgelöst wird (der physikalische Reiz
und die Sinnesmodalität spielen dabei keine Rolle!). Also allgemein: Sprachsymbole können
eine starke Reaktion hervorrufen. Sprachsymbole sind für Pawlow nichts anderes als Signale
von Signalen; er spricht deshalb von einem zweiten Signalsystem, das die Wirkungen der
Signale erster Ordnung – bis zu einem gewissen Grade – hemmen und regulieren kann.
In diesem Kontext gut empirisch untersucht ist z. B. das, was man als semantische
Generalisation bezeichnet. Das Prinzip ist sehr einfach: Die auf ein bestimmtes Wort erfolgte
Konditionierung wird auf andere, - und das ist jetzt entscheidend – inhaltlich ähnliche Wörter
generalisiert. Lautliche Ähnlichkeit (das würde einer Ähnlichkeit der Reize entsprechen)
spielt dabei keine Rolle. In der Psychologie zu einiger Bekanntheit gelangt ist ein Experiment,
das die russische Psychologin W. D. Wolkowa mit einem dreizehnjährigen Jungen
durchgeführt hat: Das russische Wort choroscho (gut) wurde dabei mit einem unmittelbaren
Auslöser für Speichelfluss (!) gekoppelt. Danach wurde überprüft, inwieweit ganze Sätze,
deren Bedeutung von Bürgern der UDSSR gemeinhin als gut bezeichnet wurden, ebenfalls
eine bedingte Reaktion auslösen konnten. Sätze wie „Die sowjetische Armee war siegreich“
oder: „Der Pionier hilft seinen Kameraden“ hatten stärkeren Speichelfluss zur Folge als der
ursprüngliche CS, also das Wort choroscho. Das Experiment zeigt also zweierlei: erstens den
Aufbau einer Konditionierung höherer Ordnung, wobei zweitens die Reaktion von dem CS
mit UCS Funktion – einem einzigen Wort – auf einen ganzen Satz übertragen wurde.
Ich habe Ihnen das letzte Mal gezeigt, dass Watson, als er die Pawlowsche Methode des
bedingten Reflexes für sich entdeckte, endlich jenes Werkzeug in den Händen zu halten
glaubte, um die Möglichkeit einer Psychologie ohne Bewusstsein nicht nur behaupten,
sondern auch experimentell demonstrieren zu können. Diese Rolle der russischen Physiologie
in Watsons Programmatik ist bemerkenswert, weil etwa zur gleichen Zeit, als Pawlow seine
Untersuchungen über den bedingten Reflex begann, in den USA selbst ein neues
Lernparadigma entwickelt worden ist, dessen Brauchbarkeit für die Entwicklung einer
behavioristischen Psychologie offenbar aber erst allmählich erkannt wurde. Mag sein, dass
der Hauptgrund dafür darin zu sehen ist, dass es Edward Lee Thorndike in seiner nachmals
so berühmt gewordenen Dissertation über „Animal Intelligence: An Experimental Study of
Associative Processes in Animals“ primär eigentlich um den Nachweis erblich bedingter
Differenzen in der Ausbildung neuer Verhaltensweisen gegangen war. Von erblich bedingten
Differenzen wollte ein radikaler Milieutheoretiker wie John Broadus Watson natürlich nichts
wissen.
Thorndike war ein Forscher, der auf den Entwicklungsgang der amerikanischen Psychologie
in der ersten Hälfte des 20. Jahrhunderts einen überragenden Einfluss ausgeübt hat – und das,
2
obwohl er gerade kein Behaviorist war. Das, was Thorndike vor allem in die amerikanische
Psychologie eingebracht hat, war sozusagen die Demonstration, dass der Anspruch auf
strenge Wissenschaftlichkeit (d. h. der Anspruch auf Naturwissenschaftlichkeit)
psychologischer Forschung und der Anspruch auf unmittelbar praktische Relevanz der
Ergebnisse dieser Forschung durchaus glaubhaft zusammen vertreten werden konnten. Eben
daran waren aber auch Watson und die Neobehavioristen und radikalen Behavioristen nach
ihm interessiert.
Thorndikes frühe Tierexperimente von 1898, und da vor allem seine Experimente mit Katzen,
sind in die Geschichte der Psychologie eingegangen. Thorndike hat hungrige Katzen in einen
Käfig aus Holzlatten gesperrt. Die Katzen konnten diesem Käfig („puzzle-box“) entkommen
und einen Futternapf erreichen, wenn sie den Riegel einer Tür öffneten. Dazu mussten sie – je
nach Konstruktion der puzzle-box, einen bestimmten Mechanismus oder mehrere
Mechanismen hintereinander mit ihren Pfoten auslösen. In der folgenden Abbildung sehen
Sie eine einfache Puzzele-Box. Die Katze muss mit der Pfote am Seil ziehen, um aus dem
Käfig entfliehen zu können.
Also. Wir sperren eine Katze hinein. Was wird sie tun? Sie wird alles „ankrallen“, was sie mit
ihren Pfoten erwischt – irgendwann wird die dann zufällig auch das Seil mit der Pfote
herunterziehen, also allgemein: den Mechanismus betätigen, der die Tür öffnet. Setzt man
jetzt dieselbe Katze immer wieder in dieselbe puzzle-box, so wird die Menge unnützer
Versuche stetig abnehmen, die Katze wird immer weniger unnütze Bewegungen
verschwenden, bis sie den Käfig zu öffnet. Die unnützen Bewegungen werden sozusagen
Schritt für Schritt gelöscht, der besondere Impuls, der zur erfolgreichen Ausführung führt,
wird durch die erreichte Befriedigung eingeprägt, bis die Katze schließlich nach vielen
Durchgängen, wenn sie erneut in den Käfig gesteckt wird, sofort – also ohne Umweg, den
richtigen Mechanismus betätigt.
Die Katzen „lernten“ also durch „trial and error, and accidental success“. Der Erfolg eines
Bewegungsablaufs – genauer die dadurch erreichte Befriedigung, oder, wie Thorndike es
später nannte, die dadurch erreichte Zufriedenheit („satisfaction“), bewirkt, dass dieser
Bewegungsablauf „eingeprägt“, gelernt wird. Dieses Prinzip nannte Thorndike „the law of
effect“ (Gesetz des Effekts).
Versuchen wir uns, dieses Gesetz möglichst allgemein zu formulieren: Die Versuchstiere
lernen, bestimmte Situationen mit Aktionen zu verknüpfen. Solche mit Situationen
verknüpfte Aktionen nannte Thorndike „habits“, „Gewohnheiten“. Habits entstehen,
indem unter verschiedenen Aktionen, die auf dieselbe Situation hin ausgeführt werden,
diejenigen stärker mit der Situation verknüpft werden, die von einem für das Tier
3
befriedigenden Zustand begleitet oder innerhalb kurzer Zeit gefolgt werden. Zudem hängt die
die Bildung von Habits natürlich aber auch von der Häufigkeit ab, mit der diese bestimmte
Aktion in einer bestimmten Situation ausgeführt werden kann, also von der Anzahl der
Lerndurchgänge: Dieses zweite Gesetz nannte Thorndike law of exercise, das Gesetz der
Übung.
Es ist wichtig, den Unterschied zur Pawlowschen Theorie zu sehen. Pawlows Konzept des
bedingten Reflexes fokussiert auf die Verknüpfung zweier Reize (CS und UCS); in
Thorndikes Konzept, für das sich der amerikanischen Psychologie später der Begriff der
„instrumentellen Konditionierung“ durchgesetzt hat, bezieht sich Lernen auf die
Verknüpfung von situativen Bedingungen (also Reizen) und Reaktionen darauf. Was ist die
richtige Lerntheorie? Sind beide Paradigmen in einer einheitlichen Lerntheorie zu vereinigen?
Oder schließen die beiden Ansätze einander aus. In diesem Zusammenhang sind zum Teil
sehr komplexe theoretische Systeme entstanden; am wichtigsten, weil in
wissenschaftstheoretischer Hinsicht voll auf der Höhe der Zeit der theoretischen Diskussionen
in den fortgeschrittenen naturwissenschaftlichen Disziplinen, ist das von Clark L. Hull
entwickelte System einer allgemeinen Theorie des Verhaltens. In seinem Versuch der
Vereinheitlichung der beiden Lern-Paradigmen spielen dann im weitesten Sinne motivationale
Momente eine entscheidende Rolle.
Dabei lieferte das von Hull entwickelte Modell zunächst nichts anderes als eine begriffliche
Präzisierung der Thorndikeschen Gesetz des Effekts. Das zentrale Konzept war das des
Triebes (drive): Ganz gleich, ob ein Verknüpfung von zwei Reizen oder eine Verknüpfung
von Reiz und Reaktion „gelernt“ wird: der Lernprozess hat immer einen inneren
Antriebszustand zur Voraussetzung. Im Grunde ist das, was Hull unter einem Drive
versteht, ein physischer Mangelzustand: Im Organismus hat sich ein für sein Überleben
optimales Gleichgewicht der physiologischen Vorgänge verschoben. Dieser Triebzustand
kann als eine Art unspezifische Erregung oder Aktivierung vorgestellt werden, mit der
bestimmte innere Reizereignisse verbunden sind, die den Organismus gleichsam über
seinen Zustand informieren. Für den in quantitativer Hinsicht variablen Triebzustand
steht im Hullschen System der Buchstabe D; für den Triebreiz SD. Unter gegebenen
Reizbedingungen (z. B. Käfig) zeigt der Organismus eine Fülle von motorischer Aktivität;
jene Verhaltensfolgen, die zu einer Reduktion des Triebzustandes führen, werden dadurch,
dass sie eben triebreduzierend wirken, also den Mangelzustand aufheben, bekräftigt:
„Bekräftigung“ erfolgt also durch Triebreduktion.
In seinem späteren Modell hat Hull zudem auch noch ein zweite, vom Triebzustand
unabhängige motivationale Komponente eingeführt: den Anreiz K, der von einer bestimmten
Bekräftigungssituation ausgeht.
4
Machen wir uns klar, worum es Hull eigentlich zu tun ist: Hull will mit seinem System
präzise voraussagen, wann ein bestimmtes Verhalten auftritt und wann nicht. Das Auftreten
eines Verhaltens hängt also grundsätzlich von Lernprozessen ab, die sich in der beschriebenen
Art vollziehen sollen. Durch Bekräftigung durch Triebbefriedigung wird die Verknüpfung
von Reizen mit Reaktionen, also die Ausbildung von Habits gelernt. Die Habitstärke kann –
und zwar in Abhängigkeit von der Anzahl der Lerndurchgänge – variieren. Sie soll sich im
übrigen mathematisch exakt berechnen lassen. Und zwar aufgrund des folgenden
gesetzmäßigen Zusammenhangs:
Wenn Bekräftigungen in gleichmäßigen Abständen einander folgen, wächst – unter
sonst gleichen Bedingungen – die Gewohnheit H als beschleunigte Funktion der Zahl
von Wiederholungen, und zwar nach der Gleichung
H = 1 – 10 –0,0305N
Ob ein Organismus in einer bestimmten Situation ein bestimmtes Verhalten zeigt oder nicht
zeigt, hängt also ab von der Habitstärke; jetzt kommen als Variable noch die motivationalen
Komponenten hinzu: also die jeweils bestehende Intensität der Triebstärke D und die Stärke
des Anreizes K; schließlich muss in dem Modell auch noch berücksichtigt werden, dass auch
die Intensität des Auslöserreizes (I) variabel ist. Wie sollen diese Bestimmungsgrößen
zusammen wirken? Hull glaubte experimentell zeigen zu können, dass sich die Intensitäten
der einzelnen Variablen gegenseitig verstärken. Dem wird schließlich mit einer
multiplikativen Funktion Rechnung getragen:
E steht in der Gleichung für Reaktionspotential
E=HxDxIxK
Das mag zur sehr oberflächlichen Orientierung über das Hullsche System genügen. Ich kann
Sie beruhigen. Alles das, was jetzt noch folgt, dem ist vergleichsweise leicht zu folgen. Dass
hat vor allem damit zu tun, dass jener Forscher, der schließlich die für die Psychologie des
Lernens einflussreichste Weiterentwicklung des Behaviorismus geliefert hat, ein erklärter
Gegner jeder Art von theoretischer Konstruktion war. Skinners Theorie besticht sozusagen
durch ihre Einfachheit und Plausibilität – und durch die Radikalität, mit der jede Bezugnahme
auf innere Vorgänge im Organismus vermieden wird.
In Skinners Forschungsprogramm lässt sich am leichtesten einführen, wenn man sich auf die
Versuchsanordnung bezieht, die er zur experimentellen Demonstration seines Ansatzes
5
erfunden hat: In der folgenden Abbildung sehen Sie die berühmt-berüchtigte SkinnerBox. Was fehlt, ist nur die weiße Ratte, die da drin herumturnt. Sie sehen, das ist eine sehr
einfache Einrichtung. Das entscheidende Ding in diesem Käfig ist der Hebel. Um den wird
sich alles drehen. Also: Wir setzen eine Ratte in die Box, und sie wird da drinnen alles
Mögliche machen: Herumschauen, an den Wänden kratzen, herumschnuppern, vielleicht auch
einmal ihr Geschäft verrichten; gelegentlich wird sich auch einmal auf den Hebel drücken.
Wir schauen ihr einfach zu dabei, und zählen, wie oft sie das Verhalten Hebel drücken in
einer gegebenen Zeiteinheit zeigt. (Ein Vorteil der ganzen Versuchsanordnung ist, dass wir
der Ratte bei der ganzen Prozedur eigentlich gar nicht zuschauen müssen: alles, was uns
interessiert, ist, wann und wie oft sie den Hebel drückt – und das können wir durch eine
entsprechende Apparatur einfach automatisch aufzeichnen lassen). Wir bestimmen damit, um
gleich einmal einen Fachterminus einzuführen, die Grundhäufigkeit dieses Verhaltens – die
Basisrate. Dann können wir mit dem eigentlichen Experiment beginnen: Nach jedem
Hebeldrücken fällt jetzt eine kleine Futterpille in den Futternapf. Dadurch beginnt sich die
Häufigkeit dieses Verhaltens zu ändern. Die Auftrittshäufigkeit steigt zunächst rasch an, dann
immer langsamer, bis sozusagen wieder eine konstante Häufigkeit erreicht ist, die jetzt aber
deutlich höher liegt als die Basisrate. Es handelt sich dabei also wiedereinmal um einen uns
jetzt schon sattsam bekannten negativ bescheunigten Kurvenverlauf. Wenn wir dann von
einem bestimmten Zeitpunkt an die Verabreichung von Futterpillen einstellen, dann wird die
Häufigkeit des Hebeldrückens wieder absinken, bis schließlich wieder die ursprüngliche
Basisrate erreicht ist. Es wird Sie nicht weiter überraschen, dass dieser Vorgang als
Extinktion bezeichnet wird. Der gesamte Vorgang lässt sich grafisch in etwa wie folgt
darstellen.
Damit ist auch schon das Prinzip der sogenannten operanten Konditionierung dargestellt. Um
diesen Begriff zu erklären, müssen wir nochmals zurück zu jenem Punkt der heutigen
Vorlesung, von dem aus ich Ihnen die Theorie des Verhaltens von Hull entwickelt habe. Hull
war es, so habe ich argumentiert, um eine Vereinheitlichung der beiden experimentellen
Paradigmen von Pawlow und Thorndike zu tun gewesen. Eben diesen Weg wollte Skinner
nicht gehen. Er beharrte darauf, dass es sich dabei um zwei verschiedene Sachverhalte
handelte. Pawlow hat in seinen Experimenten Verhalten untersucht, das an bestimmte
Auslöserreize gebunden ist – also Reflexe; Thorndike hingegen Verhalten, das irgendwie zum
spontanen Verhaltensrepertoire des Versuchstieres zählt. Letzteres bezeichnete Skinner als
Operanten. Operanten sind also einfach und präzise zu definieren: Es handelt sich um
Verhaltensweisen, die an keine Auslöserreize gebunden sind, in diesem Sinne also
spontan auftreten. Der Unterscheidung von Reflexen und Operanten entsprechen dann nach
Skinner zwei verschiedene Arten von Konditionierung: Konditionierung vom Typ S
(respondente Konditionierung = klassische Konditionieriung nach Pawlow) und
Konditionierung vom Typ R (= operante Konditionierung)
6
Skinner wollte ursprünglich eigentlich Schriftsteller werden. Für kurze Zeit hat er dann auch
als Journalist gearbeitet, bevor er in Havard Psychologie zu studieren begann. Seine
schriftstellerische Begabung (ein Begriff den Skinner selbst wohl abgelehnt hätte) und auch
sein trockener Humor trugen viel zur überragenden Wirkung seiner Schriften in Psychologie
bei. Wie Watson, so hat auch Skinner seine radikale Version des Behaviorismus als eine Art
Universalmittel zur Lösung aller sozialen Probleme angeboten. 1948 ließ er einen viel gelesen
utopischen Roman erscheinen, den er in Anspielung Henry David Thoreaus Klassiker Walden
oder Leben im Wald (1854) – Walden Two betitelte. Darin wird eine Gemeinschaft
beschrieben, die ihr Zusammenleben ganz nach den von Skinner beschriebenen Gesetzten der
behavioristischen Lerntheorie regelte. (Im übrigen gibt es seit 1973 in Mexiko eine Art
Kommune, eine Communidad Los Horncones, die Skinners Visionen eines behavioristisch
kontrollierten Zusammenlebens zu verwirklichen sucht. Einen weit über die engen
Fachgrenzen hinaus gehenden Leserkreis fand schließlich auch sein Buch: Beyond Freedom
and Dignity aus dem Jahr 1971, das 1973 auf Deutsch unter dem Titel: Jenseits von Freiheit
und Würde erschien. Skinner erhielt 1948 einen Ruf an die renommierte Havard University,
wo er bis zu seinem Lebensende lehrte.
Doch jetzt zurück zur Skinner-Box und zu Skinners operanter Konditionierung! Skinner hat
nicht nur mit Ratten, sondern vor allem auch mit Tauben experimentiert. Hier sehen sie ein
typische Skinner-Box für Tauben. Die Taube drückt keinen Hebel, sondern pickt mit dem
Schnabel auf eine Scheibe. Das Prinzip bleibt sich also gleich. Wir haben gesehen, dass, wenn
unmittelbar auf das erwünschte Verhalten (Hebeldrücken, Scheibenpicken) eine Futterpille
verabreicht wird, die die Häufigkeit des Verhaltens zunimmt. Die Futterpille stellt also einen
positiven Reiz dar; man sagt auch Verstärker. Den Vorgang selbst nennt man positive
Verstärkung. Allgemein formuliert: Ein positiver Reiz, der auf ein Verhalten folgt, erhöht
die Auftrittswahrscheinlichkeit dieses Verhaltens.
Die Auftrittswahrscheinlichkeit eines Verhaltens kann auch dadurch erhöht werden, dass auf
dieses Verhalten ein negativer Reiz, ein aversiver Reiz, endet oder entfernt wird. Man spricht
dann von negativer Verstärkung: Allgemein: Die Auftrittswahrscheinlichkeit eines
gewünschten Verhaltens steigt, wenn auf dieses Verhalten die Ausblendung eines
aversiven Reizes (z. B. Stromschlag) folgt.
Aversive Reize, die auf ein bestimmtes Verhalten hin folgen, bewirken eine Abnahme der
Verhaltenshäufigkeit. Man spricht von Bestrafung. Genauer: von Bestrafung vom Typ 1
(„positive Bestrafung“). Unter Bestrafung vom Typ 2 („negative Bestrafung“) versteht
man, dass ein positiver Reiz infolge des Auftretens einer bestimmten Verhaltensweise entfernt
wird.
7
Damit sind die wenigen Grundbegriffe, mit denen Die Skinnersche Theorie auskommt, auch
schon eingeführt. Die bisher getroffenen Unterscheidungen sind in der folgenden Abbildung
dargestellt. Ein grüner Pfeil, der nach oben zeigt, bedeutet Erhöhung der
Auftrittswahrscheinlichkeit, ein roter Pfeil, der nach unten zeigt, Senkung der
Auftrittswahrscheinlichkeit eines Verhaltens.
Viele Alltagssituationen lassen sich in diesen Termini (in den Termini von positiver und
negativer Verstärkung bzw. von Bestrafung) erklären. Spektakulär sind vor allem
Experimente, in denen gezeigt wird, dass auch so komplexe Sachverhalte, wie etwa die
Häufigkeit, mit der eine Person in einem Gespräch spontan bestimmte Themen anspricht, sich
nach der am Paradigma der Skinner-Box entwickelten Prinzipien konditionieren sind. Man
spricht in diesem Zusammenhang von verbalem Konditionieren. Das ist übrigens wieder ein
Vorgang, den Sie leicht in Alltagssituationen überprüfen können.
Ein typisches Experiment zum verbalen Konditionieren ist in etwa wie folgt aufgebaut: Der
Vl führt ein einfaches Gespräch mit der Vpn (ca 10 min), greift selbst nicht ein – Basisrate
bestimmter Sätze wird festgestellt. Dann beginnt die Prozedur. Bestimmte erwünschte Sätze
(z. B. Sätze, in denen die Vp über sich erzählt) werden positiv verstärkt (und zwar durch
Zuwendung: Nicken mit dem Kopf, beifälliges „Ja“ etc.), alle anderen Sätze nicht. Die
Häufigkeit entsprechender Sätze nimmt zu. Nach etwa wieder 10 min. Beginn mit der
Extinktion – positive Verstärkung wird eingestellt, Häufigkeit der gewünschten Sätze sinkt
wieder auf die Basisrate ab.
Wie beim Klassischen Konditionieren sind jetzt auch beim operanten Konditionieren die
Prozesse von Generalisation und Diskrimination zu demonstrieren. Z. B. kann man, wenn
man mit Tauben arbeitet, etwa wie folgt vorgehen: Während der Lernphase werden Tauben
positiv verstärkt, wenn sie auf eine leuchtende Scheibe picken. Die Scheibe leuchtet immer in
derselben Farbe, z. B. gelbgrün. In der anschließenden Extinktionsphase wechselt die
Lichtfarbe der Scheibe ständig und in zufälliger Reihenfolge. Das erwünschte Verhalten tritt
beim ursprünglichen Reiz am häufigsten auf, bei ähnlichen Reizen (z. B. gelb oder grün)
schon etwas weniger. Je unähnlicher die Lichtfarbe dem ursprünglichen Reiz ist, desto
seltener pickt die Taube auf die Farbscheibe.
Das komplementäre Phänomen zur Genralisation ist die Diskrimination. Wir unterziehen die
Tauben jetzt einem Diskriminationstraining, das dazu führen soll, dass das gewünschte
Verhalten nur in Gegenwart eines bestimmten Reizes, also reiz- oder situationsspezifisch
auftreten soll. Man geht dabei folgendermaßen vor. Schon während der Lernphase ändert sich
die Lichtfarbe der Pickscheibe häufig und in zufälliger Reihenfolge. Das Picken auf die
8
Scheibe wird jetzt aber nur dann verstärkt, wenn die Scheibe gelbgrün leuchtet. Die gelbgrüne
Lichtfarbe wird somit zu einem diskriminativen Reiz SD. Nach dem Diskriminationslernen
tritt das Verhalten mit großer Häufigkeit nur in Anwesenheit des SD bzw. – wenn auch
entsprechend weniger häufig – in Anwesenheit von Reizen, die dem SD ähnlich sind, auf. Bei
allen anderen Lichtreizen praktisch nicht mehr. Die Tauben haben also gelernt, das ihr
Verhalten nur beim Vorliegen bestimmter Reizgegebenheiten, nicht jedoch bei anderen eine
Wirkung hat. (Vorsicht: diese Terminologie hätte Skinner, weil sie mentalistisch ist, scharf
von sich gewiesen.
Eine wichtige Unterscheidung in der Skinnerschen Theorie ist die zwischen primären und
sekundären Verstärkern. Primäre Verstärker sind solche Reize, deren verstärkende Wirkung
schon vor jeder Lernerfahrung vorhanden ist: z. B. Nahrung, Wasser etc. Mit Hull könnten
wir sagen, dass sie physiologische Bedürfnisse befriedigen: eben Hunger, Durst etc. Den
Ausdruck „Bedürfnis“ hat Skinner natürlich vermieden. Alle Beispiele aus Tierversuchen, die
wir bis jetzt besprochen haben, hatten mit solchen primären Verstärkern (Futter) zu tun
gehabt. Im Experiment zum verbalen Konditionieren allerdings haben wir schon eine andere
Art von Verstärker kennen gelernt. „Zuwendung“ befriedigt keine physiologischen
Bedürfnisse – sie ist kein primärer, sondern ein sekundärer Verstärker. Sekundäre Verstärker
sind ursprünglich neutrale Reize – also Reize, die, wenn sie auf ein bestimmtes Verhalten
folgen, auf die weitere Auftrittswahrscheinlichkeit dieses Verhaltens nicht beeinflussen. Wie
aber erhalten diese ursprüngliche neutralen Reize sozusagen Verstärkerfunktion? Durch Typ
S-Konditionierung, also durch klassische Konditionierung. Allgemein formuliert: Ein an sich
neutraler Reiz wird durch häufige gemeinsame Darbietung mit einem primären Verstärker zu
einem sekundären Verstärker, der nun selbst die Auftrittswahrscheinlichkeit eines Verhaltens
zu verstärken vermag. Z. B. Ratte in der Skinner-Box. Die Verabreichung jeder Futterpille
wird mit einem Geräusch verbunden. Nach mehreren Wiederholungen wirkt das Geräusch
allein als Verstärker.
Auf der Theorie der sekundären Verstärker baut letztlich auch das Prinzip der so genannten
„token economies“ auf, das in klinischen Zusammenhängen, vor allem in der Psychiatrie
eingesetzt wird: Erwünschte Verhaltensweisen der Patienten (z. B. in Bezug auf
Körperhygiene oder Medikamenteneinnahme) werden durch das Pflegepersonal mit
Gutscheinen oder Münzen verstärkt, die die PatientInnen dann gegen eine Reihe von
Vergünstigungen und Belohnungen eintauschen können.
Nicht nur materielle Belohnungen oder (wie beim verbalen Konditionieren) persönliche
Zuwendungen wirken verstärkend, sondern auch Aktivitäten: Eine Aktivität, die gerne
ausgeführt wird, (=Aktivität mit hoher Auftrittswahrscheinlichkeit) kann als Verstärker für
die Durchführung einer weniger beliebten Aktivität (=Aktivität mit niederer
9
Auftrittswahrscheinlichkeit) eingesetzt werden. Das ist natürlich ein sehr banales Prinzip, dass
Sie aus dem Alltag gut kennen: Die Aussicht auf Freizeit und Spielen wirkt positiv
verstärkend auf das Hausaufgaben machen. Man spricht in diesem Zusammenhang vom
Premack-Prinzip, das nach seinem Entdecker, dem Psychologen David Premack benannt ist.
In meiner bisherigen Darstellung bin ich implizit immer davon ausgegangen, dass beim
operanten Konditionieren jedes Auftreten des gewünschten Verhaltens verstärkt wird. Das
kann, muss aber nicht der Fall sein. Wenn ein Verhalten nur manchmal verstärkt wird, führt
das trotzdem zu einer Ansteigen der Sauftrittswahrscheinlichkeit. Die Art und Weise, wie
verstärkt wird, bezeichnet man mit dem Terminus Verstärkerplan. Wird jedes Auftreten des
gewünschten Verhaltens verstärkt, spricht man von einem kontinuierlichem
Verstärkerplan. Wird nicht jedes Auftreten verstärkt, so nennt man das entsprechend einen
„intermittierenden Verstärkerplan“
Folie: Prinzip der kontinuierlichen Verstärkung
Es gibt mehrere Möglichkeiten, intermittierend zu verstärken: Man kann die Verstärkung erst
nach einer bestimmten Anzahl von Reaktionen geben (z. B. nur jeder vierte Operant wird
verstärkt) – „Quotenplan“, oder man gibt die Verstärkung jeweils für die erste Reaktion nach
dem Ablauf eine bestimmten Zeitinterinvalls – „Intervallplan“.
Quotenpläne und Intervallpläne können fix (fest) oder variabel gestaltet werden. Bei festen
Plänen erfolgt die Vertärkung völlig regelmäßig: also jeder vierte Operant wird verstärkt (fest
Quotenplan); genau nach Ablauf von z. B. 5 Minuten wird jeweils die erste Reaktion verstärkt
(fester Intervallplan). Bei variablen Plänen wird unregelmäßig verstärkt – d.h. nur im
Durchschnitt wird jeder fünfte Operant verstärkt: 4 – 9 – 13 – 20 – 25 – 32 – 36 – 41 – usw.
(variabler Quotenplan). Ähnlich ist es dann beim variablen Intervallplan: Das Zeitintervall,
nach dem der erste Operant verstärkt wird, beträgt nicht immer genau z. B. 300 sec. (also 5
Minuten), sondern nur im Durchschnitt: also 280 – 330 – 260 – 310 usw.
Die Untersuchung der Wirkungen verschiedener Verstärkerpläne gibt ein recht hübsches und
im übrigen sehr umfangreiches Forschungsprogramm ab. Allgemein lässt sich festhalten:
Intermittierende Verstärkerpläne unterscheiden sich in ihrer Wirkung von kontinuierlichen
Verstärkerplänen in zweierlei Hinsicht: in bezug auf die Lerngeschwindigkeit und in Bezug
auf die Extinktionsresistenz
Bei kontinuierlicher Verstärkung wird rascher gelernt als bei intermittierender Verstärkung:
In der Lernphase nimmt also die Auftrittswahrscheinlichkeit eines gewünschten Verhaltens
10
bei kontinuierlicher rascher zu (steigt steiler an), als bei intermittierender Verstärkung.
Ähnliches gilt gleichsam auch für die Extinktionsphase: Bei intermittierenden Plänen geht die
Extinktion langsamer vor sich. Allgemein formuliert: Intermittierende Verstärkung führt – im
Vergleich zu kontinuierlicher Verstärkung – zu löschungsresistenterem Verhalten.
Diese Zusammenhänge zwischen Verstärkerplan und Lerngeschwindigkeit bzw.
Löschungsresistenz sind in der folgenden Grafik anschaulich gemacht.
Wir können jetzt auch noch nach den Unterschieden in der Wirkung der verschiedenen Arten
von intermittierender Verstärkung fragen. Grundsätzlich lässt sich darüber in etwa folgendes
festhalten:
1. Quotenpläne führen im allgemeinen zu einer höheren Verhaltenshäufigkeit als
Intervallpläne
2. Variable Pläne haben gegenüber festen Plänen ein über die Zeit gesehen relativ stabile
Verteilung der Verhaltenshäufigkeiten zur Folge. Bei festen Plänen kommt es hingen
immer wieder zu zyklischen Phänomenen: die Häufigkeit des Verhaltens steigt z. B.
bei fester Intervallverstärkung kurz vor Ablauf des Zeitintervalls an; nach der
Verstärkung legen die Versuchstiere eine Art Pause ein.
3. Variable Pläne ziehen eine langsamere Lerngeschwindigkeit und einer höhere
Löschungsresistenz nach sich als feste Pläne.
In Bezug auf alltägliche Fragestellungen interessiert natürlich die Löschungsresistenz
besonders. Löschungsresistenz bedeutet – wenn ich das ganz salopp formulieren darf – dass
ein gelerntes Verhalten auch ohne weitere Verstärkung über lange Zeit noch beibehalten wird.
Den Nachteil der langsamen Lerngeschwindigkeit werden Eltern z. B. dagegen gerne in Kauf
nehmen – oder über eine zumeist unbewusst ohnehin eingesetzte optimale Lernstrategie
ausgleichen. Wenn ein kleines Kind gerade dabei ist, irgendetwas Besonderes zu lernen – z.
B. sich selbst einen Pullover richtig anzuziehen – dann werden die Eltern es anfangs jedes
Mal, wenn es das richtig hinkriegt, loben. Später wird die Häufigkeit des Lobes für’s richtige
Pulloveranziehen immer geringer werden (heute lobt uns dafür überhaupt niemand mehr). Das
entspricht sozusagen einem optimalen Verstärkungsplan. Zum Aufbau des gewünschten
Verhaltens kontinuierliche Verstärkung, dann Übergang zu einer über einen langen Zeitraum
hinweg ständig abnehmenden intermittierenden, variablen Verstärkung zur
Verhaltensstabilisierung.
Das mag für heute genügen. Ich danke Ihnen für Ihre Aufmerksamkeit.
11