zf-lernen

Anmerkung: Bei Fragen oder falls ihr Fehler entdecken solltet, bitte Mail an [email protected]
Kapitel 6 Lernen
6.1 Einführung (sehr grob)
- Erforschung der Lerngesetze besonders durch Behavioristen, wollten allgemeingültige Lerngesetze
allein auf Basis objektiv beobachtbarer Verhaltensmerkmale aufstellen, Verhalten beeinflussen
- Umsetzung in Verhaltenstherapie, heute allerdings auf wesentlich breiterer theoretischer Grundlage
- Lerntechnologie von Skinner nicht erfolgreich, heutiger computergestützter Unterricht auf gänzlich
anderer theoretischer Grundlage. Überhaupt teils geradezu naiver Glaube an Allgemeingültigkeit
von Lerngesetzen sowie Objektivität experimenteller Erkenntnisse
→ kognitive Wende (Bandura, aber auch Bolles, Rescorla, Tolman)
6.2 Klassische Konditionierung
6.2.1 Iwan Petrowitsch Pawlow: Speichelsekretion bei Hunden
Pawlow entdeckte bei Arbeiten zur Physiologie der Verdauung, dass auch zuvor neutrale Reize, wie
etwa die nahenden Schritte des Experimentators, Speichelfluss auslösten, wenn sie schon einige
Male mit oder knapp vor der Futtergabe aufgetreten waren.
→ zunächst „psychische Sekretion“ genannt, später wurden solche Lernphänomene als
„konditionierte Reflexe“ bezeichnet
→ heute: „Klassische Konditionierung“: neben Reflexen auch andere Arten von Reaktionen
berücksichtigt, die durch gelernte Reize ausgelöst werden können
Terminologie und Vorgang der klassischen Konditionierung:
Terminologie:
US: unkonditionierter Stimulus (Fleischpulver)
UR: unkonditionierte Reaktion (Speichelfluss)
NS: neutraler Stimulus (Glockenton)
OR: Orientierungsreaktion (Ohren aufstellen usw.)
CS: konditionierter Stimulus (Glockenton) (Engl.: conditioned stimulus)
CR: konditionierte Reaktion (Speichelfluss)
Vorgehensweise: Kontrollphase
US löst aus: UR
(Unterteilung)
NS löst aus: OR
Konditionierungsphase:
NS ist gepaart mit US
US löst aus: UR
Ergebnis des Konditionierungstrainings: NS wird CS
CS löst aus CR
Löschungsphase:
Kein US
CS löst mit abnehmend. Wirkung aus: CR
Ergebnis der Löschungsphase:
Keine spezifische Reaktion auf den CS
Spontanerholung:
Kein US
CS löst nochmals aus: CR
Der Aufbau des klassischen Experiments von Pawlow:
-Hund erhält Fleischpulver (US) ins Maul → sondert Speichel ab (UR)
-nun Hund mehrmals in Verbindung mit dem Fleischpulver der NS (z.B. Glockenton) dargeboten
→ wenn oft genug durchgeführt: Glockenton allein bewirkt Speichelfluss
→ aus neutralem Glockenton (NS) wurde CS. Dieser löst nun auch ohne Paarung mit
unkonditioniertem (unbedingtem) Stimulus (US) die konditionierte (bedingte) Reaktion (CR) aus
Das typische experimentelle Vorgehen kann in drei bzw. vier Phasen unterteilt werden:
Kontrollphase (Phase 1): Es ist zu Prüfen, ob US ein zufälliger Auslöser UR ist. Hingegen darf der
NS in der Kontrollphase noch nicht die UR auslösen. Er ruft jedoch – falls er dem Tier unbekannt ist –
die sog. Orientierungsreaktion (OR) hervor. Sie beinhaltet eine Hinwendung zur Reizquelle – z.B.
Hund blickt zur Glocke – und eine allgemeine Steigerung der Aufmerksamkeit – z.B.
Pupillenerweiterung, erhöhter Herzschlag. Die Einzelnen Komponenten der UR sollten sich deutlich
von denen der OR unterscheiden. Ansonsten könnte die OR fälschlicherweise als CR interpretiert
werden.
Konditionierungsphase (Phase 2): Der NS und US werden mehrmals gemeinsam dargeboten,
wobei der US die UR auslöst. Sehr wichtig ist die zeitliche Beziehung zwischen den beiden Reizen.
Abbildung 6.2 zeigt vier besonders häufig untersuchte Varianten: verzögerte Konditionierung,
simultane Konditionierung, Spurenkonditionierung und rückwirkende Konditionierung. Der zeitliche
Abstand zwischen dem Beginn des NS und dem Einsetzen des US wird als Interstimulusintervall
(ISI) bezeichnet.
- verzögerte Konditionierung führt am schnellsten zu bedingter Reaktion
- „rückwirkende Konditionierung“: umstritten, ob überhaupt ein systematischer Lerneffekt eintritt
- bei schnellen Reaktionen der Muskulatur (z.B. Lidschlag, Abwehrbewegungen, zurückziehen von
Gliedmaßen): optimaler Abstand zwischen Beginn des NS und Einsetzen des US liegt im Bereich
von wenigen Zehntelsekunden.
- bei nicht willentlich beeinflussbaren Reaktionen (z.B. Speichelfluss, galvanische Hautreaktion)
beträgt günstigstes ISI hingegen mehrere Sekunden.
→ ISI ist dann von optimaler Dauer, wenn es etwas länger als die physiologisch bedingte Latenzzeit
der Reaktion ist.
Abbildung 6.2. zeitliche Beziehung zwischen NS und US
Löschungsphase (Phase 3): Der CS wird ohne Koppelung mit dem US, d.h. alleine dargeboten.
- bei erfolgreicher Konditionierung: bedingte Reaktion tritt in den ersten Durchgängen deutlich auf
(aber meist schwächer als unbedingte Reaktion → mit ein Grund, terminologisch zwischen UR und
CR zu unterscheiden)
- nach einer Reihe von Darbietungen nimmt CR in ihrer Stärke ab, bis sie schließlich gelöscht ist
Spontanerholung (Phase 4): Wird dem Versuchstier nach einer längeren Pause nochmals der CS
geboten, tritt die zuvor gelöschte Reaktion wieder auf.
- allerdings ist diese CR deutlich schwächer als CR zu Beginn der Löschungsphase, und sie
verschwindet bei weiteren Durchgängen rasch (→ Abbildung 6.3)
Abbildung 6.3. Löschungsphase und Spontanerholung bei der klassischen Konditionierung. Daten nach Pawlow
(1927) zu einem Experiment mit Speichelfluss als UR bzw. CR und Anblick von Futterpulver als CS.
- die Löschung einer bedingten Reaktion ist kein Vergessensprozess, sondern kann als weitere
Phase eines Lernvorgangs aufgefasst werden → Organismus lernt, dass Koppelung von CS und US
nicht mehr gegeben ist; der Reiz büßt seinen Signalcharakter ein
- lässt man bloß Zeit verstreichen, hat dies nur einen geringen Einfluss auf die Stärke einer
konditionierten Reaktion
Maße zur Quantifizierung einer bedingten Reaktion:
- Reaktionsamplitude: Ausmaß / Stärke der bedingten Reaktion (z.B. Speichelfluss)
- Reaktionslatenz: Schnelligkeit, mit der bedingte Reaktion auf konditionierten Reiz folgt
- Löschungswiderstand: z.B. ermittelt anhand Anzahl der Durchgänge, in denen der konditionierte
Reiz ohne Paarung mit dem unkonditionierten Reiz vorgegeben werden muss, bis bedingte Reaktion
nicht mehr auftritt
Frage: wird bei klassischer Konditionierung eine CS -US (-CR) Verbindung oder eine direkte CS -CR
Verbindung aufgebaut?
- In beiden Fällen Annahme, dass vor Konditionierung Verbindung des US mit UR besteht.
- Auslösung einer der UR verwandten CR könnte über das Erlernen einer Assoziation von CS und US
oder aber über den Erwerb einer direkten Assoziation von CS und CR erfolgen
- Rescorla (1973): Hinweis, dass CS mit US verknüpft: In Experiment wurde nach KonditionierungsPhase die Wirkung des US durch Habituation reduziert (Habituation = Abnahme der Stärke einer
reflexartigen Reaktion (UR) nach wiederholter Darbietung des auslösenden Stimulus (US).
- da dadurch auch die Wirksamkeit des CS eingeschränkt wurde:
→ scheinbar bei klassischer Konditionierung eine CS-US Verbindung aufgebaut
6.2.2 Reizgeneralisierung und Reizdiskrimination
- bisher: Annahme, dass CS bei jeder Darbietung identisch
- aber auch ähnlicher Reiz vermag konditionierte Reaktion auslösen: „Reizgeneralisierung“
z.B. - Hund hat gelernt, auf optischen Reiz „Kreis“ mit Speichelsekretion zu antworten
- Reaktion im Allgemeinen auch durch kreisförmige Ellipse ausgelöst
- komplementärer Vorgang: „Reizdiskriminierung“
- bewirkt, dass bedingte Reaktion nur durch einen genau definierten Reiz, nicht aber durch einen ihm
ähnlichen ausgelöst wird
Diskriminationstraining: z.B. zwei ähnliche Reize in unregelmäßiger Folge dargeboten. In
Verbindung
mit dem einen Reiz (etwa einem Kreis) jedes Mal unkonditionierter Reiz präsentiert, auf anderen
Reiz (z.B. Ellipse), folgt unkonditionierter Reiz nicht.
→ nach mehreren Versuchsdurchgängen reagiert Versuchstier nur noch auf Kreis mit CR
→ hat also gelernt, zwischen Reizen „Kreis“ und „Ellipse“ zu unterscheiden
- der Diskriminationsfähigkeit sind Grenzen gesetzt. Ihre Überschreitung ist mit einer deutlichen
emotional-motivationalen Reaktion verknüpft: wenn z.B. Unterschied zwischen den beiden Reizen
„Kreis“ und „Ellipse“ im Verlauf des Trainings zunehmend verringert:
→ Diskriminationleistung sinkt drastisch ab
→ Anzeichen emotionaler Störungen sichtbar: als Ellipsen + Kreise bei Pawlow fast identisch:
massive Verhaltensstörungen (z.B. Winseln, Nahrungsverweigerung): „experimentelle Neurose“
6.2.3 Angst und Phobien
Bedingte Furcht- / Angst-Reaktion
Bisher: klassische Konditionierung anhand von Reflexen (angeborene, spezifische Reaktionen auf
einen bestimmten Reiz). Ein wesentlicher Teil der Bedeutung, die der klass. Kond. zugemessen wird,
beruht aber darauf, dass auch emotional-motivationale Reaktionen an unterschiedliche, zuvor
neutrale Reize gekoppelt werden können. So wird der Erwerb von Furcht- / Angst-Reaktionen
gegenüber bestimmten Objekten und Situationen auf Vorkommnisse in der individuellen
Lebensgeschichte eines Menschen zurückgeführt, die als Vorgänge einer klass. Kond. interpretiert
werden können.
Beispiel: Watson und Rayner (1920) Untersuchung des „kleinen Albert“: lernte Ratte zu fürchten
- Alter: zwischen 9 und 13 Monaten, in Kinderheim aufgezogen, Untersuchung über mehrere Monate
- Überprüft, ob auf unvermutetes Hämmern auf Stahlstab (US) Schreck- / Angst-Reaktion (UR)
- Reaktion auf Tiere, u.a. Ratte getestet → Albert interessiert und zutraulich
- Konditionierungstraining: Ratte (NS) gezeigt, dabei jedes Mal hinter Rücken auf Stahlstab
gehämmert → lautes Geräusch (US), löste i. Allg. UR aus
- nach wenigen Koppelungen: allein bei Anblick der Ratte Weinen und Abwenden
→ NS „weiße Ratte“ durch mehrmalige gemeinsame Darbietung mit aversivem Reiz selbst Furcht
und Angst auslösender Reiz geworden (generalisierte teils auch auf andere Felltiere und -Objekte)
→ emotionale Reaktion an neuen Reiz gekoppelt
- UR, Schreck- /Angst-Reaktion und CR, Furcht- /Angst-Reaktion nicht völlig identisch (→ siehe 6.4.1)
- erlernte Reaktion wurde nicht aufgehoben, Experiment insgesamt berüchtigt
Phobien und ihre Behandlung
Phobie: unbegründete und starke Angst vor bestimmten Objekten und Situationen (z.B. Höhenangst,
geschlossene enge Räume, Angst vor Spinnen).
→ schwerwiegende Folgen: Betroffene vermeiden alles, was sie dem Objekt der Angst aussetzen
könnte, schließen sich von Teilen des soz. Lebens aus (Bsp. Albert: Erklärungsmöglichk. für Entst.)
- verschiedene verhaltenstherapeutische Techniken zur Behandlung von Phobien berücksichtigen
Erkenntnisse zur klass. Kond. (basieren aber nicht ganz allein auf behavioristischen Erkenntnissen)
Konfrontationstherapie: Phobiker gezielt Angst auslösenden Reizen ausgesetzt (z.B. Ratte)
- graduelle Steigerung zu immer schwieriger bewältigbaren Situationen (durch Therapeut unterstützt)
- Ziel: Lernen, dass CS (z.B. Ratte) nicht mehr mit aversivem Reiz (US, z.B. Hämmern) gekoppelt ist
→ somit keine Gefahr signalisiert → Furcht- / Angst-Reaktion unbegründet
- Konfrontation mit realen Reizen / Situationen (nicht bloß vorgestellten) ist sehr erfolgreich
systematische Desensibilisierung: mit Gegenkonditionierung Angst auslösende Reize gezielt mit
Verhalten gepaart, zu dem Angst nicht kompatibel ist
→ alternative Reaktion auf die Reize gelernt, z.B. bei Entspannungstraining
- oft hierarchische Liste der ängstigenden Situationen erstellt
- Entspannung unter Vorstellung dieser Situationen, beginnend mit gering angstauslös. Vorstellungen
(Inzwischen auch zunehmend Verwendung von Simulationen virtueller Realitäten)
6.2.4 Weitere Anwendungsgebiete der klassischen Konditionierung
- physiologische Reaktionen (z.B. Herzschlag) lassen sich konditionieren
z.B. starker Kaffee: positiv angeregtes Gefühl schon bevor Koffein seine Wirkung entfaltet
- Untersuchungen zum Einfluss psychischer Faktoren auf Funktion des Immunsystems
z.B. Adler und Cohen (1975): Immunreaktion durch klassischen Konditionierung veränderbar
- Ratten bekamen mit Saccharin gesüßtes Wasser + Immunsystem schwächende Substanz
→ nach Wartezeit erhielt ein Teil der Ratten wieder gesüßtes Wasser, der andere Teil normales
Wasser (Kontrollbedingung)
→ Immunreaktion der Tiere in Experimentalbedingung fiel schwächer aus als in Kontrollbedingung
6.2.5 Neurobiologische Basis der klassischen Konditionierung
Aplysia: große Meeresschnecke, hat nur einige tausend sehr große Neurone
Kandel und Tauc (1964): aus drei Neuronen bestehende Zellverbände:
- zu Beginn: Neuron 2 aktivierte Neuron 3, Neuron 1 hatte keinen entsprechenden Effekt, obwohl
auch zwischen 1 und 3 eine synaptische Verbindung bestand
- nach mehreren Durchgängen paralleler Aktivierung der Neuronen 1 und 2 löste auch bloße
Aktivierung von Neuron eins eine Erregung von Neuron 3 aus
→ synaptische Verbindung zwischen 1 und 2 wurde durch Lernen wirksam
Hawkins, Carew und Kandel (1983) arbeiteten mit Kiemenreflex (Einziehen der Kiemen) von Apysia
- Kiemenreflex als UR und CR, US war schwacher Elektroschock des Schwanzes
- zuvor NS, dann CS: Stimulation der Atemröhre
→ Reizung der Atemröhre halbe Sekunde vor aversiver Reizung des Schwanzes
→ nach einigen Paarungen: Stimulation der Atemröhre allein löste Kiemenreflex aus
→ dabei konnte sowohl ein parasynaptischer Mechanismus, verstärkte Transmitterfreisetzung durch
sensorischen Neuronen der Atemröhre als auch erhöhte Sensibilität der postsynaptischen
Neuronen als Lerneffekte nachgewiesen werden (Bao, Kandel und Hawkins, 1998)
→ bei vielen Lernvorgängen bestehen die neuronalen Veränderungen in einer Modifikation der
Effizienz der synaptischen Verbindungen zwischen Nervenzellen
- andererseits sind trotz verwandter Mechanismen je nach konditioniertem Reflex oder Reaktion ganz
andere Hirnareale beteiligt:
Beispiel: Liedschlagreflex: unter Beteiligung der motorischen Kerne durch Luftstoß auslösbar
- bei Konditionierung des Liedschlagreflexes spielt Cerebellum zentrale Rolle
→ bei Schädigung des Cerebellums: Liedschlagkonditionierung nicht möglich, obwohl der Reflex
durch Luftstoß noch ausgelöst werden kann
- bei klass Kond. der Furcht- / Angst-Reaktion hingegen v. a. Amygdala + Hippocampus beteiligt
6.3 Operante Konditionierung
6.3.1 Lernen am Erfolg: Das Versuchsparadigma der operanten
Konditionierung
Thorndike und Skinner: Katzen, Ratten und Tauben
Beispiel: hungrige Katze wird in Käfig gesperrt, Schale mit Futter gut sichtbar vor Käfig aufgestellt
- Käfigtüre könnte durch Zug an Schlaufe, die von Decke hängt, geöffnet werden
- Katze läuft unruhig umher, tritt irgendwann zufällig in Schlaufe → Weg zum Futter frei
→ bei mehrfacher Wiederholung des Versuchs wird sich benötigte Zeit zum Türöffnen immer mehr
verringern, bis schließlich Griff zur Schlaufe die erste Bewegung der eingesperrten Katze wird
→ Katze hat nach Versuch und Irrtum gelernt
Dieser Versuch geht auf Thorndike zurück, welcher auch das Gesetz des Effekts (1911) formulierte.
Dieses besagt, dass „unter verschiedenen Reaktionen, die auf dieselbe Situation hin ausgeführt
werden, diejenigen stärker mit der Situation verknüpft werden, die von einem für das Tier
befriedigenden Zustand begleitet oder innerhalb kurzer Zeit gefolgt werden“.
→ mechanistische Auffassung des Lernens am Erfolg durch Versuch und Irrtum stand bewusst im
Gegensatz zu der zu diesem Zeitpunkt verbreiteten Auffassung, dass Tiere in derartigen
Situationen durch Denken zur Lösung kommen
Unterschied: bei klassischer Konditionierung: natürliche, angeborene Reaktion des Organismus
auf einen bestimmten und bekannten auslösenden Reiz wird mit einem anderen (ursprünglich
neutralen) Reiz gekoppelt
- bei operanter Konditionierung: Auftretenswahrscheinlichkeit eines auf die Umwelt einwirkenden
Verhaltens wird aufgrund positiver Konsequenzen erhöht
→ ein Verhalten eines Lebewesens wirkt auf die Umwelt ein, wobei die zu diesem Verhalten
führenden Reize häufig nicht im Detail bekannt sind; man spricht von operantem, nicht im Sinne
der klass. Kond. reizgebundenem Verhalten. Folgt dem Auftreten einer operanten
Verhaltensweise ein verstärkender Reiz:
→ Auftretenswahrscheinlichkeit des Verhaltens
in ähnlichen oder gleichen Situationen erhöht
Versuchstiere oft in „Skinner-Boxen“ trainiert
(Abbildung 6.4)
Abbildung 6.4: Skinner-Box
Phasen einer operanten Konditionierung
Beim Aufbau einer operanten Konditionierung mithilfe eines positiven Verstärkers (wie Futter) lassen
sich häufig (analog klass. Kond.) vier Phasen unterscheiden (Abbildung 6.5):
1. Bestimmung der Basisrate (Grundrate):
- Der Experimentator registriert, wie oft das zu konditionierende Verhalten ohne Verstärkung auftritt
z.B. aufgezeichnet, wie häufig pro Zeiteinheit Ratte in Skinner-Box spontan den Hebel drückt
2. Verstärkung des Verhaltens in der Trainingsphase:
- zu konditionierendes Verhalten wird gezielt verstärkt: beispielsweise rollt nach jedem Hebeldruck
des Tieres ein Futterkügelchen in den Trog → Häufigkeit des Verhaltens nimmt zu
3. Löschung (Extinktion) des Verhaltens:
- Verhalten nicht weiter verstärkt: auch bei Hebeldruck kein Futter → Abschwächung des Verhaltens,
sodass i. A. nach ausgedehnter Löschungsphase kein Effekt der Konditionierung mehr beobachtbar
4. Spontanerholung:
- abgeschwächte Reaktionen treten nach einiger Zeit ohne Verstärkung wieder gehäuft auf, wenn
experimentelle Situation nach zeitweiliger Aufhebung wiederhergestellt wird → Ratte, die nach
Löschung einige Zeit außerhalb von Skinner-Box war, betätigt wieder Hebel, jedoch nicht so oft wie
am Ende der Trainingsphase
Abbildung 6.5: Vier Phasen einer operanten Konditionierung (fiktive Daten)
- nicht immer alle vier Phasen gleich wichtig: z.B. bei klinischer Verhaltenstherapie oder bei
Interventionen im Erziehungsbereich kommt es häufig darauf an, ein Verhalten dauerhaft
aufzubauen (Phase 2) oder dauerhaft zu löschen (Phase 3)
- gelegentlich Unterscheidung zwischen operanter und instrumenteller Konditionierung
→ in instrumenteller Situation: Wiederholung des Verhaltens nicht ohne Intervention des VL möglich
z.B.: Ratte soll schnell durch Laufgang rennen, muss nach Durchlaufen ans Ziel zurückgesetzt
werden. In Skinner-Box (oper. Situat.) kann Ratte ein Verhalten hingegen beliebig oft wiederholen
6.3.2 Verstärkung, Bestrafung, Hinweisreize
- bisher: nachdem bestimmtes Verhalten gezeigt, Situation angenehmer Reiz hinzugefügt (z.B.
Futter nach Hebeldruck) → „positive Verstärkung“ („Belohnungstraining“)
- aber auch Entfernung eines unangenehmen Reizes aus Situation kann verstärkend wirken:
„negative Verstärkung“ z.B. Versuchskäfig ähnlich einer Skinner-Box, aber aus zwei Abteilen
bestehend, welche durch eine verschließbare Öffnung miteinander verbunden sind. Wenn
Bodengitter in dem Abteil, in dem Ratte sich befindet unter Strom gesetzt → Ratte lernt nach
wenigen Durchgängen, in anderes Abteil zu fliehen
→ „Fluchttraining“: aversiver Reiz endet, wenn Tier das gewünschte Verhalten zeigt
→ positive wie negative Verstärkung (Abbildung 6.6) erhöhen beide die
Auftretenswahrscheinlichkeit eines Verhaltens („negativ“ charakterisiert zentrale Eigenschaft
eines Reizes, nicht Effekt auf Verhaltenshäufigkeit, also ~ hinzufügen / wegnehmen)
Bestrafung (Abbildung 6.7) zielt hingegen auf Verhaltensunterdrückung
→ Auftretenswahrscheinlichkeit des Verhaltens verringert. Auch dies kann auf zwei Arten geschehen:
- entweder unangenehmer Reiz zur Situation hinzugefügt (Bestrafung Typ 1), z.B. Stromstoß über
Bodengitter nach Hebeldruck → Unterdrückung dieses Verhaltens
- oder angenehmer Reiz entfernt (Bestrafung Typ 2), z.B. Ratte verliert mehrmals ein FutterKügelchen durch Bodengitter aufgrund bestimmter Bewegung → Unterdrückung d. Verhaltens
→ passives Vermeidungslernen: Verhaltensunterlassung aufgrund negativer Konsequenzen
diskriminative Hinweisreize (Abbildungen 6.6 und 6.7):
-diskriminatives Belohnungstraining: Verhalten nur verstärkt, wenn Hinweisreiz vorliegt
z.B. Ratte erhält bei Hebeldruck in Skinner-Box nur Futter, wenn zugleich Lampe im Käfig leuchtet
→ lernt nach mehreren Durchgängen, Hebel nur zu Drücken, wenn Lampe leuchtet
- aktives Vermeidungslernen: Hinweisreiz kurz vor aversivem Reiz. Bestimmtes Verhalten erlaubt
es, unangenehmem Reiz zu entgehen
z.B. (abgewandelter Fluchttrainingsversuch): Licht leuchtet, kurz bevor Stromstoß durch Bodengitter
→ Ratte lernt, auf Lichtreiz hin in anderes Käfigabteil zu laufen; wenn schnell genug: Schmerzreiz
ganz vermieden (→ Unterschied zu Fluchttraining)
- diskriminatives passives Vermeidungslernen: Bestrafung Typ 1 / 2 gekoppelt mit Hinweisreiz
Kind hilft in Küche
→ Mutter lobt
→ Kind hilft öfter
Oma hasst Unruhe
→ kein Lob wenn Kind
Oma hilft
→ Kind hilft nicht bei
Oma, aber bei
Mutter
Kind nervt Mutter
→ sperrt Kind in
Keller
→ Laune besser
(sperrt Kind
zukünftig öfter
in Keller)
Wie oben, aber:
Vater findet in
Keller sperren
schlecht
→ Mutter sperrt
Kind nur in Keller,
wenn Vater weg
Kind macht
ins Töpfchen
→ Lob von Mutter
Abbildung 6.6: Formen von Verstärkung
Kind wirft mit Klötzchen
→ Mutter ohrfeigt Kind
Vater reagiert nie
→ Kind wird künftig
nur werfen, wenn
Mutter nicht da
(bei Vater schon)
Kind wirft mit Klötzchen
→ Mutter ohrfeigt Kind
→ Kind wird künftig
nicht mehr werfen
Abbildung 6.7: Formen von Bestrafung
Kind wirft mit
Klötzchen auf
Mutter
→ Mutter nimmt
Klötzchen weg
→ Kind wirft
künftig nicht
mehr
wie oben, aber:
wenn Kind auf
Oma wirft: Oma
macht nichts
→ Kind wird
künftig nur
nicht werfen,
wenn Mutter da (sonst schon)
6.3.3 Positive Verstärkung
Arten von Verstärkung
primäre Verstärker: befriedigen physiologische Bedürfnisse, z.B. Hunger, Durst
- wirken ohne vorhergehenden Lernprozess
- Wirksamkeit ist abhängig von den jeweiligen Bedürfnissen des Organismus: z.B. Futter als primärer
Verstärker → Tiere müssen hungrig sein
zuvor neutraler Reiz wird durch häufige Darbietung mit primärem Verstärker zu sekundärem
Verstärker: vergrößert nun selbst Auftretenswahrscheinlichkeit eines Verhaltens
z.B. wenn erscheinen einer Futterpille im Trog immer ein Geräusch im Futtermagazin vorhergeht
→ nach Reihe von Durchgängen wirkt schon allein dieses Geräusch als Verstärker
-sekundäre Verstärker wichtig für Aufbau von Verhaltenssequenzen (Ketten von Verhaltensweisen)
generalisierte Verstärker: beziehen ihre Wirksamkeit aus der in der Lerngeschichte des Individuums
erfolgten Verknüpfung mit mehreren primären und sekundären Verstärkern
z.B. wirken im Alltagsleben Geld oder Verbesserung des sozialen Status auf diese Weise verstärkend
- Personenverstärker: Zuwendung einer geliebten Person
- Premack-Prinzip: beliebte Aktivität kann als Verstärker für weniger beliebte Aktivität eingesetzt
werden.
→ findet auch Anwendung bei Selbstverstärkung (Gegensatz: Fremdverstärkung): Für Lernen mit
Musikhören selber belohnt
- kortikale Reizung: elektrische Reizung des Hypothalamus wirkt verstärkend
z.B. Routtenberg und Lindy (1965): Ratten konnten selber zwischen elektrischer Reizung und
Futtergabe wählen → trotz massiver Futterdeprivation fast immer kortikale Reizung gewählt
Verstärkungspläne
Nach Art und Koppelung von Verhalten und Verstärkung lassen sich verschiedene Formen der
Verstärkung und Verstärkungspläne unterscheiden (Abbildung 6.8)
jedes Auftreten des Verhaltens
(z.B. Hebeldrücken) wird verstärkt
nicht jedes Auftreten wird verstärkt
Verstärkung nach bestimmter
Anzahl von Reaktionen
Verstärkung jeweils
für erste Reaktion
nach festgelegtem
Zeitintervall
Zeitabstände bleiben gleich
Zeitabstände wechseln zufällig
Abbildung 6.8: Verstärkungspläne
genau jede n-te Reaktion
wird verstärkt
Anzahl der Reaktionen
ohne Verstärkung
zufällig,
Dichte der
Verstärkung
jedoch festgelegt,
indem durchschnittlich jede n-te Reaktion verstärkt
Die Art des Verstärkungsplans kann man als unabhängige Variable betrachten, als abhängige
Variablen (a) die Lerngeschwindigkeit, gemessen an der Veränderung der Reaktionshäufigkeit und
der Intensität der Reaktionen über die Zeit, und (b) den Löschungswiderstand des Verhaltens.
Zwischen dem Verstärkungsplan und des diesen AVs bestehen charakteristische Zusammenhänge:
- kontinuierliche Verstärkung: führt rascher zum angestrebten Verhalten als intermittierende
Verstärkung (hohe Ausführungshäufigkeit + Verhaltensintensität auf diese Weise schneller erreicht)
- Intermittierende Verstärkung: Verhalten ist dafür löschungsresistenter
- Quotenpläne führen i. A. zu höherer Reaktionshäufigkeit als Intervallpläne
- Variable Verhaltenspläne haben über Zeit gesehen sehr gleichmäßiges Verhalten zur Folge
- Fixierte Pläne führen zu stark wechselnden Verhaltenshäufigkeiten
Beispiel: fixierter Intervallplan:
- Ratten zeigen pro Verstärkung etwa gleich viele Reaktionen → Folge: beispielsweise bei
Vierminutenplan nur Hälfte der Reaktionen von Zweiminutenplan aufgetreten / registriert.
- Tier pausiert nach Erhalt der Verstärkung häufig, erst nach Ablauf des Zeitintervalls Verhalten
wieder vermehrt gezeigt. Unmittelbar vor Bekräftigung: Reaktionsfrequenz sehr hoch
→ Zeitdiskrimination
variabler Intervallplan: Zeitpunkt der Verstärkung nicht vorhersehbar → führt zu stabilem und
einheitlichem Verhalten
→ oft genutzt, wenn der Effekt anderer Bedingungen auf gelerntes Verhalten untersucht wird
im Alltag: Kind klettert alleine auf Stuhl: Eltern loben zuerst immer (→ Personenverstärker: Lob +
Aufmerksamkeit), dann nur noch ab und zu, schließlich gar nicht mehr
→ ohne negative Konsequenzen für Auftretenshäufigkeit, da neues Verhalten gelernt und ev. nun
andere Verstärker (Dinge auf Tisch)
→ optimaler Verstärkerplan: Kontinuierliche Verstärkung zum Verhaltensaufbau, gefolgt von einer
über einen langen Zeitraum abnehmenden intermittierenden variablen Verstärkung zur
Verhaltensstabilisierung
- nicht kontingente Verstärkung (zeitlich nicht zusammentreffend):
Verstärkung unabhängig vom Auftreten eines bestimmten Verhaltens nach variablem oder fixiertem
Zeitintervallplan → Auftretenswahrscheinlichkeit des zufällig vor einer Verstärkung gezeigten
Verhaltens erhöht (somit auch vor nächst. Verstärkung erhöht, usw…)
→ seltsame Rituale erzeugbar: „abergläubisches Verhalten“ z.B. in Kreis drehende Taube
Verstärkungsmenge
Veränderung der Verstärkungsmenge (Crespi, 1942) (Abbildung 6.9)
- Futterdeprivierte Ratten liefen durch Gang, an Zielende Verstärkung (Futter)
- Zeit für Zurücklegen der Laufstrecke gemessen.
- Eine KG, die immer 16 Futtereinheiten als Verstärkung erhielt, zwei Experimentalgruppen: eine
erhielt zu Beginn 256 Futtereinheiten, die andere 64
- nach 20 Tagen erhielten alle Gruppen nur noch 16 Futtereinheiten
Ergebnisse: -je größer Verstärkungsmenge, desto größer Laufgeschwindigkeit
- bei Reduktion: Laufgeschwindigkeit reduziert sich drastisch (negativer Kontrasteffekt), fiel sogar
unter KG → Depressionseffekt (Umgekehrt ist auch möglich: Laufgeschwindigkeit kann durch
Erhöhung der Verstärkung sprunghaft gesteigert werden: positiver Kontrasteffekt)
→ generell: In Trainingsphase wächst Stärke des kond. Verhaltens mit Verstärkungsmenge
Abbildung 6.9: negativer Kontrasteffekt
bei reduzierter Verstärkungsmenge
Abbildung 6.10: Versuch zum latenten Lernen
Latentes Lernen: Kompetenz und Performanz
Was geschieht wenn phasenweise, insbesondere zu Beginn des Trainings, überhaupt keine
Verstärkung geboten?
Tolman und Honzik (1930a): Ratten sollten in großem, verwinkeltem Labyrinth zu Zielkammer laufen
- eine Gruppe von Beginn an verstärkt (kontinuierliche Verstärkung mit Futter), eine zweite gar nicht,
eine dritte erst ab dem 11. Versuchstag
-Abbildung 6.10: zeigt die durchschnittliche Fehlerzahl (Betreten von Sackgassen) über Tage hinweg
- kontinuierlich verstärkte Gruppe: üblicher Lerneffekt (Fehlerzahlen sinken, anfangs Lerngewinn
deutlicher)
- bei Gruppe ohne Verstärkung nimmt Fehleranzahl etwas, aber nur wenig, ab
- bei dritter Gruppe: nach Einsetzen der Verstärkung: unmittelbar bei Durchgang danach gleich gute
oder bessere Ergebnisse als kontinuierlich verstärkte Tiere
→ Ratten mussten schon an den ersten zehn Tagen gelernt haben, zeigten die erworbene
Kompetenz jedoch nicht: „latentes Lernen“ (Kompetenz, die zunächst keinen Niederschlag im
Verhalten findet, typischerweise unter der Bedingung geringen Antriebs oder fehlender Verstärkung)
→ Unterschied: Erwerb einer Kompetenz und Umsetzung im beobachtbaren Verhalten
(Performanz), Kritik: bei Ratten natürliches Explorationsverhalten, Verstärkung nicht durch
Futter, aber durch Reduktion der „Neugier“. (Explorationsverhalten umso häufiger, je komplexer ein
Labyrinth)
- wirklich latentes Lernen (Lernen ohne Verstärkung)? aber sicher: wesentlicher Teil des Gelernten
erst umgesetzt, wenn Verstärkung gegeben
→ Bereits damals eigentlich Widerlegung des Behaviorismus
Zeitintervall zwischen Verhalten und Verstärkung
Je größer das Zeitintervall ist, das zwischen der Ausübung des Verhaltens und der Verabreichung
des Verstärkers verstreicht, desto langsamer wird gelernt.
- Spence (1947): zeitliche Verzögerung unterbindet Lernen, nur über sekundäre Verstärkung
Lernerfolg möglich (z.B. charakteristische Reize auf Weg)
- (Grice 1948): Ausschaltung derartiger Reize und Verhinderung sekundärer Verstärkung: Einfluss
zeitlich verzögerter Verstärkung
- Ratten sollten durch weißen Gang in Zielkammer laufen. Unmittelbar hinter Start zunächst
Diskriminationskammer (eine Hälfte weiß, führte in kurzen weißen Gang mit weißem Vorhang,
andere Seite schwarz, schwarzer Gang und Vorhang → diskriminativer Hinweisreiz), hinter der
jeweils noch ein grauer Gang lag
→ Reize hinter Diskriminationskammer und Ziel gleichgehalten (grauer Gang), sowohl bei
korrekten Verhalten (weiß) als auch bei falschem Verhalten (schwarz)
- Zeit bis zum Ziel manipuliert (Türen eingebaut, Gang konnte verlängert werden,…):
→ 6 Gruppen: 0 Sekunden (Verstärkung direkt hinter Kammer); 0,5 / 1,2 / 2 / 5 / 10 Sekunden
→ je länger Verstärkung verzögert, desto langsamer wurde gelernt. In Gruppe mit 10 Sekunden
Verzögerung erreichte die Mehrzahl der Tiere das Lernkriterium (18 von 20 Durchgängen korrekt)
selbst nach 1440 Durchgängen nicht (Abbildung 6.11)
Abbildung 6.11: Effekt zeitlicher Verzögerung der
Verstärkung
- Für viele Alltagssituationen gilt, dass sekundäre Verstärkung zwischen Verhalten und verzögerter
primärer Verstärkung vermittelt. Kinder und Erwachsene können zwar durchaus ein längeres
Zeitintervall in der Vorstellung überbrücken. Auch für sie und insbesondere Kleinkinder ist jedoch
sofortige Verstärkung am wirksamsten
„soziale Fallen“: Situationen, in denen positive Konsequenzen sofort eintreten, negative aber nur mit
starker zeitlicher Verzögerung (z.B. bei Rauchen, Umweltproblemen)
Rachlin und Green (1972): Wechselwirkung von zeitlicher Verzögerung der Verstärkung und der
Menge der Verstärkung:
- Tauben konnten auf rotes Licht picken → sofort kleine Verstärkung; oder auf grünes Licht picken
→ große Verstärkung, allerdings erst nach 4 Sekunden
→ sofortige kleine Verstärkung eindeutig bevorzugt. „Diskontierung“: Verringerung des subjektiven
Werts bei zeitlicher Verzögerung (beim Menschen aber längere Zeiträume betrachtet)
(ev. nachlesen: quasi Erweiterung dieses Versuchs: S. 364 rechts unten)
6.3.4 Reizdiskrimination, Verhaltensdifferenzierung, Aufbau von
Verhaltensketten
Möglichkeiten, im Rahmen der operanten Kond. besonders Situationsangepasstes, differenziertes
und aus mehreren Einheiten bestehendes Verhalten aufzubauen: Reizdiskrimination,
Verhaltensdifferenzierung und Verhaltensverkettung
Reizdiskrimination: Beispielsweise bei diskriminativem Hinweisreiz, oder beim Versuch mit weißer
und schwarzer Kammer
→ Ausblenden („fading“): das schrittweise Ausblenden eines (zu Beginn starken) diskriminativen
Hinweisreizes bzw. das Ausblenden von Unterschieden zwischen zwei derartigen Reizen. Lernen
bedeutet in diesem Kontext die differenzierte Berücksichtigung von minimalen Reizunterschieden
Beispiele: „lesende“ Taube von Reese (1966):
- wenn das Wort „turn“ auf Schild erschien, drehte sie sich im Kreis, bei „peck“ begann sie zu picken.
- zu Beginn hatten die beiden Wörter „peck“ und „turn“ stark unterschiedliches Aussehen (Größe und
Farbe). Versuchstier lernte, auf jeden der noch leicht unterscheidbaren Reize mit der
entsprechenden Verhaltensweise zu reagieren. Dann wurden die Unterschiede Schrittweise
reduziert. (Tauben besitzen gutes optisches Diskriminationsvermögen)
Wasserman, Kiedinger und Bhatt (1988):
- Tauben wurden trainiert, in Abhängigkeit von jeweils gezeigtem Bild auf eine von vier Tasten zu
picken
- Taste 1 bei Bild einer Katze aus erstem Satz von 10 Katzenbildern, Taste 2 bei Bild einer Katze aus
zweitem Satz von 10 Katzenbildern, Taste 3 bei Bild einer Blume aus erstem Satz von 10
Blumenbildern und auf Taste 4 bei Bild einer Blume aus zweitem Satz von Blumenbildern
- Tauben konnten recht gut zwischen Katzen und Blumen unterscheiden (Tasten 1 und 2)
- Tasten 1 und 2 bzw. 3 und 4 wurden häufig verwechselt. Innerhalb der Katzen / Tauben war die
Diskriminationsleistung schlecht
Lernen, wie man lernt: Tiere, die eine Reihe von Diskriminationsaufgaben zu bewältigen haben,
lösen derartige Lernaufgaben zunehmend rascher und effektiver.
- deutliche Unterschiede in Effektivität des Lernens zu lernen aber auch bei Vergleich
unterschiedlicher Tierarten (Anhand der Verbesserung der Lernleistung bei aufeinander folgenden
Aufgaben): Rhesusaffen > Totenkopfäffchen > Krallenaffen > Katzen > Ratten > Eichhörnchen
(Warren 1965).
→ Fähigkeit, die Lösung von Diskriminationsaufgaben zu lernen als Indikator von
Intelligenzunterschieden zwischen Tierarten
Reizgeneralisierung: Stärke der generalisierten Reaktion auf Reize unterschiedlicher
Ähnlichkeit untersucht:
- Tier mit positiver Verstärkung trainiert, auf best. Reiz ein Verhalten zu zeigen. In Löschungsphase
wird geprüft, inwieweit dem Hinweisreiz ähnliche Reize ebenfalls zu einer entsprechenden Reaktion
führen bzw. inwieweit die Stärke der Reaktion mit Unähnlichkeit des Reizes abnimmt.
Guttman und Kalish (1956):
- Tauben pickten auf Plastikscheibe, Futter als Verstärkung. Ein in Farbe und Wellenlänge genau
definiertes Licht diente als diskriminativer Hinweisreiz.
- in Löschungsphase wurde die Stärke der Reaktion (Anzahl der Reaktionen) in Abhängigkeit von der
Ähnlichkeit der Reize geprüft. Reaktionshäufigkeit sank mit zunehmender Unähnlichkeit zwischen
dem ursprünglich gelernten diskr. Hinweisreiz und den Testreizen.
- Die sich ergebende Funktion wird Generalisierungsgradient genannt
Verhaltensdifferenzierung: einzelne Merkmale eines Verhaltens, wie seine Geschwindigkeit oder
Intensität, werden im Lernprozess verändert
- um dies zu erreichen: Verhalten selektiv nur dann verstärken, wenn es das in Frage stehende
Merkmal in gewünschtem Ausprägungsgrad aufweist.
- soll etwa eine Ratte lernen, einen Hebel in Skinner-Box sehr kräftig zu drücken, so wird zunächst
jedes Drücken verstärkt, dann nur noch, wenn das Verhalten mit hoher Intensität auftritt, zuletzt
ausschließlich bei sehr kräftigem Druck des Hebels
→ sukzessive Verhaltensformung („shaping“), stufenweise Annäherung an gewünscht. Verhalten
→ neuartige und komplizierte, nicht im natürlichen Repertoire vorkommende Verhaltensweisen
können so aufgebaut werden
- Beispiel: Tier soll lernen den richtigen Knopf eines Fernsehers zu drücken. In der ersten Phase
schon Hinwendung zu Gerät verstärkt, dann nur noch die Hinwendung des Kopfes zu Knöpfen, dann
Berührung des richtigen Knopfes, zuletzt nur noch Drücken des Knopfes mit der Schnauze
- Verstärkungen mit steigender Dauer des Trainings nur noch für Verhaltensweisen gegeben, die
besser mit angestrebtem Zielverhalten übereinstimmen
→ wichtige Rolle bei klinischer Verhaltensmodifikation, wenn es etwas darum geht, ein neues
Verhalten aufzubauen: beispielsweise soll scheues Kind zu intensiverem Sozialkontakt mit
Gleichaltrigen geführt werden (Blackham und Silberman, 1975):
- Zu Beginn für jede Zuwendung der Aufmerksamkeit zu anderen Kindern verstärkt, später für
Näherkommen, dann nur noch für Beteiligung an gemeinsamen Aktivitäten der Kinder
Für den Aufbau komplexer Verhaltensabläufe spielt neben Verhaltensformung auch der Aufbau von
Verhaltensketten (chaining) eine wichtige Rolle:
- Verhalten m (primär durch Futter verstärkt), das in Kette an letzter Stelle stehen soll, wird auf
diskriminativen Hinweisreiz n trainiert. Auf Hinweisreiz n-1 wird Verhalten m-1 konditioniert, wobei als
Verstärker der diskriminativen Hinweisreiz n dient. Dabei handelt es sich um einen sekundären
Verstärker, der durch seine Koppelung mit dem primären Verstärker Futter die Auftretenswahrscheinlichkeit des Verhaltens m-1 erhöht. (Und immer so weiter… bei großem Interesse bitte auf
Seite 367 nachlesen, diesen SCHEISS schreib ich nicht ab)
→ Nach einem längeren Training genügt dann schon der erste diskriminative Hinweisreiz, um die
gesamte Verhaltenskette, vermittelt über die von ihnen ausgelösten inneren Reize, ablaufen zu
lassen. Eine Verhaltenskette stellt demnach eine Abfolge von Reiz-Reaktions-Einheiten dar.
6.3.5 Bestrafung, Löschung und Ablösung von Verhalten
Um die Ausführungshäufigkeit eines Verhaltens zu reduzieren, gibt es drei unterschiedliche
Möglichkeiten:
1) die das Verhalten aufrecht erhaltenden Verstärker können entzogen werden, sodass es zur
Löschung kommt
2) es kann ein konkurrierendes Verhalten durch Verstärkung aufgebaut werden, das das alte ablöst
und
3) das Verhalten kann Bestraft werden
Löschung von Verhalten durch Ignorieren
Verstärker können auch unerwünschte Reaktionen aufrecht erhalten. Die Reduktion der Auftretenshäufigkeit eines Verhaltens ist nach dieser Betrachtungsweise möglich, wenn man die betreffenden
Verstärker ausfindig macht und aus der Situation entfernt
→ Löschung der Verhaltensweise
Beispiel Williams (1959):
- zweijähriges Kind bekam während Krankheit sehr viel Zuwendung (pos. Verstärkung).
- zwang nach Gesundung die Eltern nach Zubettgehen mit Schreikrämpfen noch bis zu 2 Stunden bei
ihm am Bett zu bleiben. Erziehungsberater empfahl, diese Form der Zuwendung als Verstärker zu
entziehen: Eltern sollten Kind ruhig und liebevoll zu Bett bringen, dann aber Zimmer trotz Weinen
verlassen.
→ Dauer des Weinens sank, Zubettgehen nach 10 Tagen völlig entspannt. Als Tante Kind zu Bett
brachte noch einmal Geschrei, dann aber endgültige Löschung
(Vorgehen wäre schlecht, falls Angst oder Schmerz der tatsächliche Grund für Schreien gewesen, da
dann Weinen unterdrückt, aber wirkliche Grund nicht ins Blickfeld gerückt)
Ablösung von Verhalten
Besonders wirkungsvoll ist die Löschung von Verhalten, wenn gleichzeitig ein konkurrierendes
Verhalten durch positive Verstärkung aufgebaut wird:
- neues Verhalten konkurriert mit abzulösendem Verhalten, macht ihm in Verhaltensablauf Platz
streitig
- kommt nicht wie sonst bei Löschung zu Entzug positiver Verstärkung (bei Beispiel: Eltern könnten
mit Kind beruhigende „Schlaf-Rituale“ einüben, z.B. Aufziehen von Musikbär)
Bestrafung
Estes (1944): Frage der Wirksamkeit von Bestrafung zur Reduzierung der Ausführungshäufigkeit eines Verhaltens (Abbildung 6.12)
- Ratten zunächst in Skinner-Box mit positiver Verstärkung auf häufiges Hebeldrücken konditioniert
- während 1. Löschungsphase wurden Tiere in Experimentalgruppe nicht nur nicht mehr verstärkt,
sondern auch noch oft, aber nicht immer über Bodengitter leicht elektrisch geschockt. Die Tiere in
der KG wurden weder verstärkt noch bestraft (Löschung). In der 2. und 3. Phase wurde das
Verhalten in beiden Gruppen nur gelöscht.
→ nach Bestrafung in Experimentalgruppe war die Häufigkeit des dort Hebeldrücken deutlich
niedriger als in KG, nahm jedoch wieder zu. In 2. Phase war die Verhaltenshäufigkeit in beiden
Gruppen etwa gleich, in 3. Phase übertraf Häufigkeit in Experimentalgruppe sogar die KG
Abbildung 6.12: Effekt von Bestrafung nach Estes
Estes folgerte, dass Bestrafung zwar zu einer gewissen Unterdrückung von Verhalten führt, aber
insgesamt gesehen nicht sehr wirkungsvoll ist.
→ die Auffassung, dass Bestrafung eine relativ unwirksame Methode zur Erzielung überdauernder
Verhaltensänderungen sei, wurde in den folgenden Jahren zu einem wichtigen Lerntheoretischen
Argument für positive Verstärkung und gegen negative Verhaltenskonsequenzen im Erziehungsund Therapiebereich.
- frühe Experimente arbeiteten jedoch mit schwachen aversiven Reizen, unterschätzten die
Wirksamkeit von Bestrafung
Zusammenfassend lässt sich sagen:
- Unterdrückung von Verhalten ist umso stärker und dauerhafter, je intensiver der Strafreiz ist. Bei
intermittierender Bestrafung ist Unterdrückungseffekt langfristiger als bei kontinuierlicher. Wichtig ist,
dass der Strafreiz direkt auf das fragliche Verhalten folgt.
Die Wirksamkeit der Bestrafung wird herabgesetzt, wenn dem Verhalten gelegentlich positive
Verstärkung folgt. Auch nicht kontingente, „grundlose“ Bestrafung reduziert die Wirkung nachfolgender Bestrafung.
Wenn gleichzeitig mit der Bestrafung zur Unterdrückung eines Verhaltens eine Alternativreaktion
aufgebaut wird und diese die Verstärkung erfährt, die zuvor die nun bestrafte Reaktion erfahren hat,
so ist diese Vorgehen besonders wirkungsvoll. (Auch gibt es Belege, dass eine einmalige negative
Erfahrung zu einer vollständigen Unterdrückung eines Verhaltens führen kann)
Kritische Aspekte von Bestrafung:
Bestrafung unterdrückt Verhalten und ist nicht mit Löschung gleichzusetzen. Ein Verhalten wird nicht
„vergessen“, die Bestrafung hat primär Einfluss auf Häufigkeit des Auftretens (Performanz). Das
bestrafte Verhalten tritt aller Voraussicht nach wieder auf, wenn das Individuum keine weitere
Bestrafung erwartet, weil beispielsweise der Bestrafende nicht zugegen ist. Kritisch ist auch, dass die
Aufmerksamkeit des Bestraften gerade auf das nicht gewünschte Verhalten gelenkt wird (nur
durch Aufbau von Alternativverhalten vermeidbar). Auch die Beeinträchtigung der Beziehung
zwischen Bestraftem und Bestrafendem ist zu berücksichtigen, sowie der Aspekt, dass der
Bestrafende in einer unerwünschten Form zu einem Modell für den Bestraften wird. Zudem sind die
ungünstigen emotionalen und motivationalen Folgen (Angst, Aggression) für den Bestraften zu
bedenken.
Negative Konsequenzen eines Verhaltens werden häufig nicht als Bestrafung (im eigentlichen Sinn)
aufgefasst, wenn die Bestrafungsfolgen „naturgegeben“ sind oder so aufgefasst werden.
Beispiel: Kind fasst auf heiße Herdplatte → Verhalten tritt nicht mehr auf
Mutter haut Kind für Verhalten auf die Finger → Verhaltensvorhersage schwieriger, emotionale
Betroffenheit größer
→ naturgegeben negative Konsequenzen werden leichter ertragen als Bestrafung durch anderen
Menschen, wenn dem Betroffenen klar ist, dass es in der Entscheidung des Anderen liegt, ihn zu
bestrafen oder nicht.
im 1. Fall: neg. Konsequenzen haben v. a. informative Funktion, im 2. Fall zudem vielschichtige
soziale Komponente
→ je deutlicher die informative Funktion für den Bestraften ist und je mehr sie dazu beiträgt, Schaden
von ihm abzuwenden, desto eher ist die Bestrafung zu rechtfertigen
Aus Tierexperimenten folgt:
Strafe sollte konsequent (→ informativ) sein und zeitnah auf das Verhalten folgen. Neuerliche
zwischenzeitliche Verstärkungen sind zu vermeiden. Grundlose Bestrafung reduziert die Wirkung
nachfolgender gezielter Bestrafung.
Auszeit („time-out“): Unerwünschtes Verhalten von Kindern wird zu löschen versucht, indem alle
potentiellen Verstärker aus der Situation entfernt werden
Beispiel: Kind blödelt beim Essen, Geschwister lachen, Kind blödelt deshalb noch mehr
→ Auszeit: Kind muss für einige Minuten alleine in anderem Zimmer sitzen, bevor es wieder am
gemeinsamen Essen teilnehmen darf. Geschwister werden ermahnt, nicht mehr auf Blödeleien
einzugehen. (wird z.B. in der Kinderpsych. angewandt, habe ich selber gesehen / gemacht)