Allgemeine Psychologie II Prof. Dietrich Albert WS 2003 / 2004 VO 04, 4.11.2003 WS 2003 / 2004, Prof. Dietrich Albert 1 Gedächtnis: Theorien des Lernens Reiz-Stichproben-Theorie • Wie hängt die Antwort der Versuchsperson vom aktuellen Lernzustand ab? • Die Wahrscheinlichkeit für das Auftreten einer bestimmten Antwort lässt sich durch die relative Häufigkeit der Elemente in der Stichprobe festlegen, die mit dieser Antwort verknüpft sind • Dies ist möglich, ohne die Korrespondenz zwischen den Reizelementen und den Aspekten der experimentellen Situation zu kennen • Die oben ausgeführten Annahmen zur Stichprobenauswahl ordnen nämlich jedem Reizelement die gleiche Auswahlwahrscheinlichkeit zu WS 2003 / 2004, Prof. Dietrich Albert 2 Gedächtnis: Theorien des Lernens Reiz-Stichproben-Theorie • Wie verändert sich der Lernzustand über die Durchgänge? • Die möglicherweise eintretende Veränderung des Lernzustands der Versuchsperson als Effekt der Rückmeldung besteht darin, dass die Elemente der Stichprobe jeweils mit einer konstanten Wahrscheinlichkeit mit der richtigen Antwort verknüpft werden • Mit zunehmender Dauer des Lernexperiments vergrößert sich damit die Wahrscheinlichkeit für das Auftreten der richtigen Antwort als Folge der Veränderung des Lernzustands WS 2003 / 2004, Prof. Dietrich Albert 3 Gedächtnis: Theorien des Lernens Reiz-Stichproben-Theorie • Stichprobenauswahl WS 2003 / 2004, Prof. Dietrich Albert 4 Gedächtnis: Theorien des Lernens Reiz-Stichproben-Theorie • Antwortverhalten WS 2003 / 2004, Prof. Dietrich Albert 5 Gedächtnis: Theorien des Lernens Reiz-Stichproben-Theorie • Lernvorgang WS 2003 / 2004, Prof. Dietrich Albert 6 Gedächtnis: Theorien des Lernens Reiz-Stichproben-Theorie • Lernvorgang WS 2003 / 2004, Prof. Dietrich Albert 7 Gedächtnis: Theorien des Lernens Reiz-Stichproben-Theorie • Lernvorgang WS 2003 / 2004, Prof. Dietrich Albert 8 Gedächtnis: Theorien des Lernens Reiz-Stichproben-Theorie • Durch Spezifikation einzelner Annahmen lassen sich verschiedene Theorien des Lernens ableiten, die oft auch als Lernmodelle bezeichnet werden • Besteht die Menge E aus genau N = 1 Element, so resultiert das Alles-Oder-Nicht Modell (one-element model) • Für N = 2 erhält man ein Zwei-Stufen-Modell des Lernens (two-element model) • Für N ! ∞ wird die Theorie äquivalent zum linearen Modell des Lernens von Bush & Mosteller (1955) WS 2003 / 2004, Prof. Dietrich Albert 9 Gedächtnis: Theorien des Lernens Lerntheorien • Die nachfolgende Darstellung des linearen Modells orientiert sich an der ursprünglich von Bush & Mosteller (1955) gegebenen Formulierung • Hierfür leiten wir die durch die Theorie vorhergesagte Lernkurve ab, die auch als mittlere Lernkurve bezeichnet wird • Anschließend charakterisieren wir das Alles-Oder-Nicht Modell als Spezialfall der Reiz-Stichproben-Theorie und leiten hierfür ebenfalls die vorhergesagte mittlere Lernkurve ab WS 2003 / 2004, Prof. Dietrich Albert 10 Gedächtnis: Theorien des Lernens Lineares Modell • Annahmen • Durch Et sei das Ereignis bezeichnet, dass in Durchgang t eine falsche Antwort E gegeben wird; die Wahrscheinlichkeit dieses Ereignisses ist P(Et) • Für den ersten Durchgang gelte P(E1) = ε mit einer Konstanten 0 < ε < 1 • Durch P(E1) wird die Wahrscheinlichkeit bezeichnet zu Beginn des Lernexperiments eine falsche Antwort abzugeben WS 2003 / 2004, Prof. Dietrich Albert 11 Gedächtnis: Theorien des Lernens Lineares Modell • Annahmen • Für t > 1 gelte die rekursive Gleichung P(Et) = θ · P(Et-1) mit einer Proportionalitätskonstante 0 ≤ θ < 1 • Die Multiplikation mit der Konstanten θ beschreibt die Wirkung eines Lerndurchgangs als proportionale Verringerung der Fehlerwahrscheinlichkeit • Die Bezeichnung “lineares Modell” ist darin begründet, dass die Multiplikation mit einer Konstanten eine lineare Operation ist WS 2003 / 2004, Prof. Dietrich Albert 12 Gedächtnis: Theorien des Lernens Lineares Modell • Mittlere Lernkurve • Löst man die rekursive Gleichung auf, so erhält man für t = 3 beispielsweise • Allgemein errechnet man dann für alle t ≥ 1 WS 2003 / 2004, Prof. Dietrich Albert 13 Gedächtnis: Theorien des Lernens Lineares Modell • Mittlere Lernkurve WS 2003 / 2004, Prof. Dietrich Albert 14 Gedächtnis: Theorien des Lernens Annahmen des Alles-Oder-Nichts Modells A1. Der Wissensstand einer Versuchsperson bezüglich eines zu lernenden Items läßt sich durch zwei Zustände beschreiben • Entweder hat die Versuchsperson keinerlei Kenntnis über das Item, so dass sie etwaige korrekte Antworten nur durch Raten erreicht (Zustand G, guessing state), oder die Versuchsperson hat das Item vollständig gelernt (Zustand L, learned state) A2. Am Anfang des Experiments ist die Versuchsperson bezüglich aller Items im Zustand G WS 2003 / 2004, Prof. Dietrich Albert 15 Gedächtnis: Theorien des Lernens Annahmen des Alles-Oder-Nichts Modells A3.1 Immer dann, wenn bei einem Durchgang der Versuchsperson die Rückmeldung gegeben wird, ob ihre Antwort korrekt war oder Nicht oder die richtige Antwort dargeboten wurde, kann sie bezüglich des abgefragten Items vom Zustand G in den Zustand L wechseln Die Wahrscheinlichkeit α für einen solchen Wechsel ist konstant, sie hängt insbesondere weder von der Nummer des Durchgangs, noch von den bisherigen Darbietungen des Items ab A3.2 Befindet sich die Versuchsperson bezüglich eines Items im Zustand L, dann bleibt sie dort für die gesamte Dauer des Experiments WS 2003 / 2004, Prof. Dietrich Albert 16 Gedächtnis: Theorien des Lernens Alles-Oder-Nichts Modell als Reiz-Stichproben-Theorie • Die Menge von Reizelementen ε enthält genau N = 1 Element • Das Element wird in jedem Lerndurchgang als Stichprobenelement gezogen • In jedem Durchgang ist das Element in genau einem von zwei Zuständen • Es ist mit der richtigen Antwort verknüpft (Zustand L) • Es ist nicht mit der richtigen Antwort verknüpft (Zustand G) WS 2003 / 2004, Prof. Dietrich Albert 17 Gedächtnis: Theorien des Lernens Alles-Oder-Nichts Modell als Reiz-Stichproben-Theorie • In jedem Durchgang mit positiver Rückmeldung wird das Element mit Wahrscheinlichkeit α mit der richtigen Antwort assoziiert bzw. mit der Gegenwahrscheinlichkeit 1- α bleibt es nicht assoziiert. Falls es bereits assoziiert ist bleibt es assoziiert mit Wahrscheinlichkeit 1. • Die richtige Antwort wird mit Wahrscheinlichkeit 1 gegeben, falls das Element mit der richtigen Antwort assoziiert ist, andernfalls wird die richtige Antwort mit Wahrscheinlichkeit g geraten • Das Element ist zu Beginn des Lernens nicht mit der richtigen Antwort assoziiert WS 2003 / 2004, Prof. Dietrich Albert 18 Gedächtnis: Theorien des Lernens Alles-Oder-Nichts Modell • Mit Hilfe der Wahrscheinlichkeitsrechnung lassen sich die Annahmen des Alles-Oder-Nichts Modells so formulieren, dass man daraus präzise Verhaltensvorhersagen für ein Lernexperiment ableiten kann • Grundlegend für diese wahrscheinlichkeitstheoretische Formulierung sind zwei Mengen • Der Zustandraum, d.h. die Menge der möglichen internen Lernzustände, ist gegeben durch {L,G} • Der Antwortraum, d.h. die Menge der möglichen Antworten, ist gegeben durch {C,E} WS 2003 / 2004, Prof. Dietrich Albert 19 Gedächtnis: Theorien des Lernens Alles-Oder-Nichts Modell • Für ein Item einer Lernliste lässt sich ein Lernexperiment nun charakterisieren durch eine Sequenz von Zuständen und eine dieser Folge zugeordnete Sequenz von Antworten WS 2003 / 2004, Prof. Dietrich Albert 20 Gedächtnis: Theorien des Lernens Alles-Oder-Nichts Modell • Die Sequenz aus den angenommenen Lernzuständen L und G ist nicht beobachtbar • Die Lernzustände bilden theoretische Konstrukte, d.h. eine abstrakte Beschreibung der für das gezeigte Verhalten verantwortlich gemachten internen psychologischen, oder kognitiven Strukturen • Beobachtbar ist lediglich die Sequenz der Antworten, von der aus auf die jeweils unterliegenden Lernzustände zurückgeschlossen werden soll WS 2003 / 2004, Prof. Dietrich Albert 21 Gedächtnis: Theorien des Lernens Formale Charakterisierung des Alles-Oder-Nichts Modells A1 Der Wissensstand einer Versuchsperson bezüglich eines zu lernenden Items läßt sich durch zwei Zustände beschreiben Entweder hat die Versuchsperson keinerlei Kenntnis über das Item, so dass sie etwaige korrekte Antworten nur durch Raten erreicht (Zustand G, guessing state), oder die Versuchsperson hat das Item vollständig gelernt (Zustand L, learned state) • Der Zustandsraum ist gegeben durch die Menge {L,G} WS 2003 / 2004, Prof. Dietrich Albert 22 Gedächtnis: Theorien des Lernens Formale Charakterisierung des Alles-Oder-Nichts Modells A2. Am Anfang des Experiments ist die Versuchsperson bezüglich aller Items im Zustand G • Es gilt P(G1) = 1 und P(L1) = 0 • Dabei ist P(G1) (bzw. P(L1)) die Wahrscheinlichkeit für das Ereignis, dass sich die Versuchsperson im ersten Durchgang im Ratezustand G (bzw. im gelernten Zustand L) befindet WS 2003 / 2004, Prof. Dietrich Albert 23 Gedächtnis: Theorien des Lernens Formale Charakterisierung des Alles-Oder-Nichts Modells A3.1 Immer dann, wenn bei einem Durchgang der Versuchsperson die Rückmeldung gegeben wird, ob ihre Antwort korrekt war oder nicht, kann sie bezüglich des abgefragten Items vom Zustand G in den Zustand L wechseln Die Wahrscheinlichkeit α für einen solchen Wechsel ist konstant, sie hängt insbesondere weder von der Nummer des Durchgangs, noch von den bisherigen Darbietungen des Items ab • Die Zustandsübergangswahrscheinlichkeiten lauten für alle t >= 1 WS 2003 / 2004, Prof. Dietrich Albert 24 Gedächtnis: Theorien des Lernens Formale Charakterisierung des Alles-Oder-Nichts Modells • Durch P(Lt+1 | Gt) wird die bedingte Wahrscheinlichkeit bezeichnet, dass die Versuchsperson im Durchgang t+1 im Zustand L ist, unter der Voraussetzung, dass sie im Durchgang t im Zustand G war (entsprechend für P(Gt+1 | Gt)) A3.2 Befindet sich die Versuchsperson bezüglich eines Items im Zustand L, dann bleibt sie dort für die gesamte Dauer des Experiments • Die Zustandsübergangswahrscheinlichkeiten lauten für alle t >= 1 WS 2003 / 2004, Prof. Dietrich Albert 25 Gedächtnis: Theorien des Lernens Formale Charakterisierung des Alles-Oder-Nichts Modells • Die bedingten Wahrscheinlichkeiten des Zustandsübergangs werden üblicherweise in einem (in diesem Fall quadratischen) Schema zusammengefasst, der so genannten Zustandsübergangsmatrix WS 2003 / 2004, Prof. Dietrich Albert 26 Gedächtnis: Theorien des Lernens Formale Charakterisierung des Alles-Oder-Nichts Modells A4.1 Wird die Versuchsperson nach einem Item gefragt, bezüglich dessen sie im Zustand G ist, dann gibt sie zufällig eine der möglichen Antworten, mit gleicher Wahrscheinlichkeit g für jede der verfügbaren Antwortalternativen • Für alle t = 1, 2, . . . gilt • P(Ct | Gt) (bzw. P(Et | Gt)) ist die Wahrscheinlichkeit einer korrekten (bzw. falschen) Antwort im Durchgang t bei Zustand G WS 2003 / 2004, Prof. Dietrich Albert 27 Gedächtnis: Theorien des Lernens Formale Charakterisierung des Alles-Oder-Nichts Modells A4.2 Wird die Versuchsperson nach einem Item gefragt, bezüglich dessen sie im Zustand L ist, dann gibt sie immer die korrekte Antwort (C) und niemals die falsche Antwort (E) • Für alle t = 1, 2, . . . gilt • P(Ct | Lt) (bzw. P(Et | Lt)) ist die Wahrscheinlichkeit einer korrekten (bzw. falschen) Antwort im Durchgang t bei Zustand L WS 2003 / 2004, Prof. Dietrich Albert 28 Gedächtnis: Theorien des Lernens Formale Charakterisierung des Alles-Oder-Nichts Modells • Die bedingten Antwortwahrscheinlichkeiten werden üblicherweise in einem (in diesem Fall quadratischen) Schema zusammengefasst, der so genannten Antwortmatrix WS 2003 / 2004, Prof. Dietrich Albert 29 Gedächtnis: Theorien des Lernens Formale Charakterisierung des Alles-Oder-Nichts Modells • Die genannten Annahmen definieren das Alles-Oder-Nichts-Modell als einen so genannten homogenen Markoff-Prozess • Die Eigenschaft der Homogenität (bzw. Zeitinvarianz) bedeutet, dass die Zustandsübergangswahrscheinlichkeiten und Antwortwahrscheinlichkeiten pro Zustand unabhängig vom Durchgang t sind • Die Markoff-Eigenschaft bedeutet, dass der Lernzustand im nachfolgenden Durchgang nur vom Lernzustand im aktuellen Durchgang abhängt (und beispielsweise nicht von der zurückliegenden Lerngeschichte) WS 2003 / 2004, Prof. Dietrich Albert 30 Gedächtnis: Theorien des Lernens Vorhersagen des Alles-Oder-Nichts Modells • Die durch das Alles-Oder-Nichts Modell vorhergesagte mittlere Lernkurve P(Et) wird durch die Formalisierung der Annahmen nicht unmittelbar festgelegt, sondern muss daraus abgeleitet werden • Hierzu betrachten wir zunächst die Wahrscheinlichkeiten P(Gt) und P(Lt), dass sich die Versuchsperson im Durchgang t im Ratezustand G bzw. im gelernten Zustand L befindet • Der folgende Baumgraph kennzeichnet die prinzipiell möglichen Zustandssequenzen WS 2003 / 2004, Prof. Dietrich Albert 31 Gedächtnis: Theorien des Lernens Vorhersagen des Alles-Oder-Nichts Modells WS 2003 / 2004, Prof. Dietrich Albert 32 Gedächtnis: Theorien des Lernens Vorhersagen des Alles-Oder-Nichts Modells • Im Baumgraphen des Alles-Oder-Nichts-Modells ergibt sich für alle t = 2, 3, . . . genau ein Pfad zum Zustand Gt, während für Lt jeweils mehrere Pfade existieren • Die Wahrscheinlichkeit einen bestimmten Pfad zu nehmen, ergibt sich dabei als Produkt der an den entsprechenden Pfeilen angegebenen Zustandsübergangswahrscheinlichkeiten • Um die Wahrscheinlichkeit P(Lt) des Zustands L im Durchgang t = 2, 3, . . . zu erhalten, müssen die den jeweils zum Zustand L führenden Pfaden zugeordneten Wahrscheinlichkeiten addiert werden WS 2003 / 2004, Prof. Dietrich Albert 33 Gedächtnis: Theorien des Lernens Vorhersagen des Alles-Oder-Nichts Modells WS 2003 / 2004, Prof. Dietrich Albert 34 Gedächtnis: Theorien des Lernens Vorhersagen des Alles-Oder-Nichts Modells • Aus dem Baumgraphen kann man somit ablesen, dass für den Durchgang t = 5 gilt und • Allgemein kann man zeigen, dass für alle t = 1, 2, . . . gilt WS 2003 / 2004, Prof. Dietrich Albert 35 Gedächtnis: Theorien des Lernens Vorhersagen des Alles-Oder-Nichts Modells • Für das Antwortverhalten errechnet man mittels der Formel der totalen Wahrscheinlichkeit • Als mittlere Lernkurve für Fehler erhält man also für alle t = 1, 2, . . . WS 2003 / 2004, Prof. Dietrich Albert 36 Gedächtnis: Theorien des Lernens Vorhersagen des Alles-Oder-Nichts Modells • Mittlere Lernkurve WS 2003 / 2004, Prof. Dietrich Albert 37 Gedächtnis: Theorien des Lernens Mittlere Lernkurve • Ein Vergleich der mittleren Lernkurven des Alles-Oder-Nichts Modells und des linearen Modells zeigt, dass diese formal identisch sind • Alles-Oder-Nichts Modell • Lineares Modell WS 2003 / 2004, Prof. Dietrich Albert 38 Gedächtnis: Theorien des Lernens Mittlere Lernkurve • Setzt man ε = 1-g und θ = 1- α, so machen Alles-Oder-NichtsModell und lineares Modells identische Vorhersagen • Ein empirischer Test der Grundannahme des Alles-Oder-NichtsModells, dass sich Lernen diskret bzw. sprunghaft vollzieht, kann daher nicht auf der Basis der mittleren Lernkurve erfolgen • Bevor wir eine Methode kennen lernen, die Grundannahme des Alles-Oder-Nichts-Modells empirisch zu testen, wenden wir uns dem Problem der adäquaten Bestimmung des Lernparameters α für einen gegebenen Datensatz zu WS 2003 / 2004, Prof. Dietrich Albert 39 Gedächtnis: Theorien des Lernens Parameterschätzung im Alles-Oder-Nichts-Modell • Die Statistik bietet verschiedene Verfahren an, die Werte der in einer Theorie enthaltenen Parameter derart zu bestimmen, dass gegebene Daten hierdurch möglichst gut vorhergesagt werden • Die Moment-Methode nach Pearson ist eine pragmatische Methode, die meistens zu relativ einfach zu berechnenden Schätzfunktionen für die Parameter führt, deren Eigenschaften jedoch weitgehend ungeklärt sind • Die Maximum-Likelihood Methode ist eine aufwendigere, aber fundiertere Schätzmethode, die den Vorteil bietet, dass die Eigenschaften der daraus resultierenden Schätzfunktionen bekannt und wünschenswert sind WS 2003 / 2004, Prof. Dietrich Albert 40 Gedächtnis: Theorien des Lernens Parameterschätzung im AON-Modell: Moment-Methode • Ausgangspunkt der Schätzung des Lernparameters ist die Zufallsvariable T, mit der die Gesamtanzahl der in einem Lernexperiment (bei einem Item) auftretenden Fehler bezeichnet werden soll • Unter der Annahme der Gültigkeit des Alles-Oder-Nichts-Modells kann man die Wahrscheinlichkeitsverteilung der Zufallsvariablen T ableiten, d.h. man kann für alle k = 0, 1, 2, . . . die Wahrscheinlichkeiten P(T = k) bestimmen, dass insgesamt k Fehler auftreten • Wir betrachten jedoch nur die Vorhersage der im Mittel erwarteten Anzahl von Fehlern, den so genannten Erwartungswert E(T) von T WS 2003 / 2004, Prof. Dietrich Albert 41 Gedächtnis: Theorien des Lernens Parameterschätzung im AON-Modell: Moment-Methode • Für den Erwartungswert ε (T) läßt sich aus dem AON-Modell ableiten • Nach der Moment-Methode wird der Erwartungswert ε (T) der Zufallsvariablen T ersetzt durch die Schätzfunktion wobei N die Anzahl der Items und Tj die Gesamtanzahl der Fehler bei Item j ist WS 2003 / 2004, Prof. Dietrich Albert 42 Gedächtnis: Theorien des Lernens Parameterschätzung im AON-Modell: Moment-Methode • Das arithmetische Mittel T beschreibt somit die mittlere Fehlerzahl pro Item • Man hat dann die Schätzgleichung oder umgeformt WS 2003 / 2004, Prof. Dietrich Albert 43