Allgemeine Psychologie II Prof. Dietrich Albert WS 2003 / 2004 VO 05, 11.11.2003 WS 2003 / 2004, Prof. Dietrich Albert 1 Gedächtnis: Theorien des Lernens Parameterschätzung im AON-Modell: Moment-Methode • Ausgangspunkt der Schätzung des Lernparameters ist die Zufallsvariable T, mit der die Gesamtanzahl der in einem Lernexperiment (bei einem Item) auftretenden Fehler bezeichnet werden soll • Unter der Annahme der Gültigkeit des Alles-Oder-Nichts-Modells kann man die Wahrscheinlichkeitsverteilung der Zufallsvariablen T ableiten, d.h. man kann für alle k = 0, 1, 2, . . . die Wahrscheinlichkeiten P(T = k) bestimmen, dass insgesamt k Fehler auftreten • Wir betrachten jedoch nur die Vorhersage der im Mittel erwarteten Anzahl von Fehlern, den so genannten Erwartungswert ε(T) von T WS 2003 / 2004, Prof. Dietrich Albert 2 Gedächtnis: Theorien des Lernens Parameterschätzung im AON-Modell: Moment-Methode • Für den Erwartungswert ε(T) läßt sich aus dem AON-Modell ableiten • Nach der Moment-Methode wird der Erwartungswert ε(T) der Zufallsvariablen T ersetzt durch die Schätzfunktion wobei N die Anzahl der Items und Tj die Gesamtanzahl der Fehler bei Item j ist WS 2003 / 2004, Prof. Dietrich Albert 3 Gedächtnis: Theorien des Lernens Parameterschätzung im AON-Modell: Moment-Methode • Das arithmetische Mittel T beschreibt somit die mittlere Fehlerzahl pro Item • Man hat dann die Schätzgleichung oder umgeformt WS 2003 / 2004, Prof. Dietrich Albert 4 Gedächtnis: Theorien des Lernens Parameterschätzung im AON-Modell: Moment-Methode • Beispiel WS 2003 / 2004, Prof. Dietrich Albert 5 Gedächtnis: Theorien des Lernens Parameterschätzung im AON-Modell: Moment-Methode • Beispiel WS 2003 / 2004, Prof. Dietrich Albert 6 Gedächtnis: Theorien des Lernens Parameterschätzung im AON-Modell: Moment-Methode • Beispiel • Für die mittlere Gesamtzahl der Fehler T gilt sodass man mit g = 0.5 als Schätzer des Lernparameters α erhält WS 2003 / 2004, Prof. Dietrich Albert 7 Gedächtnis: Theorien des Lernens Parameterschätzung im AON-Modell: Moment-Methode • Beispiel • Mittlere und empirische Lernkurve WS 2003 / 2004, Prof. Dietrich Albert 8 Gedächtnis: Theorien des Lernens Empirischer Test des Alles-Oder-Nichts-Modells • Die wesentliche Annahme des Alles-Oder-Nichts-Modells bezieht sich auf das Antwortverhalten der Versuchsperson im Ratezustand G und besagt, dass jedes einzelne Item sprunghaft und vollständig gelernt wird und nicht teilweise oder graduell • Solange sich die Versuchsperson also im Ratezustand G befindet, ist für jedes Item die Wahrscheinlichkeit eine falsche Antwort zu geben konstant über alle Durchgänge (Stationaritätshypothese) • Da die Versuchsperson in allen Durchgängen vor dem letzten Fehler mit Sicherheit im Ratezustand ist, sind diese Hypothesen anhand der Antworten aus diesen Durchgängen empirisch überprüfbar WS 2003 / 2004, Prof. Dietrich Albert 9 Gedächtnis: Theorien des Lernens Empirischer Test des Alles-Oder-Nichts-Modells • Für jedes Item wird die Teilsequenz der Antworten vor dem letzten Fehler halbiert (oder in mehrere Abschnitte unterteilt, wenn die Länge der Sequenzen es zulässt) • Die Darstellung der – bei Gültigkeit des Alles-Oder-Nichts-Modells konstanten – Fehlerwahrscheinlichkeiten der Hälften (Abschnitte) wird Vincent-Kurve genannt • Da die Antwortsequenzen der einzelnen Items meist sehr kurz sind, können für den statistischen Test die relativen Häufigkeiten über mehrere Items gemittelt werden werden WS 2003 / 2004, Prof. Dietrich Albert 10 Gedächtnis: Theorien des Lernens Empirischer Test des Alles-Oder-Nichts-Modells • Beispiel WS 2003 / 2004, Prof. Dietrich Albert 11 Gedächtnis: Theorien des Lernens Empirischer Test des Alles-Oder-Nichts-Modells • Beispiel: Durchgänge vor dem letzten Fehler WS 2003 / 2004, Prof. Dietrich Albert 12 Gedächtnis: Theorien des Lernens Empirischer Test des Alles-Oder-Nichts-Modells • Beispiel: Teilung der Durchgänge vor dem letzten Fehler WS 2003 / 2004, Prof. Dietrich Albert 13 Gedächtnis: Theorien des Lernens Empirischer Test des Alles-Oder-Nichts-Modells • Beispiel: Beispiel: Vincent-Kurve WS 2003 / 2004, Prof. Dietrich Albert 14 Gedächtnis: Theorien des Lernens Empirischer Test des Alles-Oder-Nichts-Modells • Beispiel: Vincent-Kurve • Die Ergebnisse zur Vincent-Kurve liefern keinen Anhaltspunkt f¨ur eine Abnahme der Wahrscheinlichkeit eines Fehler bei zunehmender Durchgangszahl • Die Evidenz bezüglich der Stationarität lässt sich unter Verwendung eines statistischen Tests zufallskritisch bewerten (χ2 Anpassungstest) • Für den vorliegenden Datensatz zum Paar-Assoziations-Lernen kann somit die Hypothese, dass die Assoziationen nach dem AllesOder-Nichts-Prinzip gebildet werden, nicht abgelehnt werden WS 2003 / 2004, Prof. Dietrich Albert 15 Gedächtnis: Theorien des Lernens Alles-Oder-Nichts-Modell: Anwendungen • Im Anschluss an Bower (1961), der das Alles-Oder-Nichts-Modell erstmals auf das Paar-Assoziationslernen anwendete, konnte gezeigt werden • War die experimentelle Situation gekennzeichnet durch • leicht unterscheidbare Reizkomponenten • zwei vorab bekannte Antwortkomponenten so konnte die Stationaritätshypothese, und damit die Annahme eines diskreten Lernprozesses im Sinne des Alles-Oder-NichtsPrinzips, bestätigt werden WS 2003 / 2004, Prof. Dietrich Albert 16 Gedächtnis: Theorien des Lernens Alles-Oder-Nichts-Modell: Anwendungen • Das Experiment von Rock (1957) war nicht von dieser Art und erforderte neben Assoziationslernen auch Antwortlernen • Kintsch (1963) konnte nachweisen, dass mit der von Rock verwendeten Art von Reiz-Reaktions-Sequenzen die Stationaritätshypothese in systematischer Weise verletzt wird • Durch die Einführung eines zusätzlichen Lernzustands resultiert ein Zwei-Stufen-Modell, mit dem die Ergebnisse des Substitutionsverfahrens befriedigend erklärt werden können WS 2003 / 2004, Prof. Dietrich Albert 17 Gedächtnis: Theorien des Lernens Zwei-Stufen-Modell des Paar-Assoziationslernens • Im Zwei-Stufen-Modell wird neben dem ungelernten Zustand G und dem gelernten Zustand L noch ein Zwischenzustand I (intermediary state) angenommen, in dem sich der Lernprozess befinden kann • Der Zustand I ist ein unvollständiges Lernstadium, in dem die Antwortkomponente verfügbar, aber noch nicht mit der richtigen Reizkomponente verknüpft ist • Es wird also folgender Zustandsraum angenommen S = {G, I,L} WS 2003 / 2004, Prof. Dietrich Albert 18 Gedächtnis: Theorien des Lernens Zwei-Stufen-Modell des Paar-Assoziationslernens • Der Antwortraum ist, wie im Alles-Oder-Nichts-Modell, gegeben durch R = {C,E} C korrekte Antwort, E falsche Antwort • Bezüglich der Anfangsverteilung wird angenommen P(G1) = 1 P(I1) = 0 P(L1) = 0 WS 2003 / 2004, Prof. Dietrich Albert 19 Gedächtnis: Theorien des Lernens Zwei-Stufen-Modell des Paar-Assoziationslernens • Es wird angenommen, dass der Zustand L ausgehend vom Zustand G nur über den Zwischenzustand I erreicht werden kann • Für alle t = 1, 2, . . . ergeben sich daher folgende Zustandsübergangswahrscheinlichkeiten WS 2003 / 2004, Prof. Dietrich Albert 20 Gedächtnis: Theorien des Lernens Zwei-Stufen-Modell des Paar-Assoziationslernens • Vor erfolgtem Antwortlernen im Zustand G werden keine richtigen Antworten gegeben, danach im Zustand I mit Wahrscheinlichkeit , während im gelernten Zustand L stets richtige Antworten erfolgen • Für alle t = 1, 2, . . . ergeben sich somit folgende Antwortwahrscheinlichkeiten WS 2003 / 2004, Prof. Dietrich Albert 21 Gedächtnis: Theorien des Lernens Zwei-Stufen-Modell des Paar-Assoziationslernens • Analog zum Alles-Oder-Nichts-Modell kann auch für das ZweiStufen-Modell eine mittlere Lernkurve abgeleitet werden • Auch ein empirischer Test kann analog zum Alles-Oder-NichtsModell erfolgen • Das Zwei-Stufen-Modell impliziert die Stationarität der Ratewahrscheinlichkeit für Durchgänge nach der ersten korrekten Antwort und vor dem letzten Fehler WS 2003 / 2004, Prof. Dietrich Albert 22 Paradigma des Wiedererkennens Einfluss von Reaktionsneigung (Antwortbias) • Beim Paradigma des Wiedererkennens werden in der Testphase sowohl “alte”, d.h. in der zuvor präsentierten Lernliste enthaltene Items (Targets), und “neue”, nicht gelernte Items (Distraktoren) dargeboten • Bei einer sukzessiven Darbietung von Lernitems und Distraktoren in zufälliger Reihenfolge ist von der Versuchsperson zu entscheiden, ob das jeweils präsentierte Item in der Lernliste enthalten war, oder nicht • Die Trefferrate, d.h. der Anteil der richtig wiedererkannten Items aus der Lernliste, wird in entscheidendem Maße von der Reaktionsneigung (Antwortbias) der Versuchsperson abhängen WS 2003 / 2004, Prof. Dietrich Albert 23 Paradigma des Wiedererkennens Einfluss von Reaktionsneigungen • Eine Versuchsperson, die praktisch immer “Ja” sagt, wird fast alle Lernitems korrekt identifizieren, jedoch auch viele Distraktoren als “alte” Items bezeichnen • Eine Versuchsperson, die praktisch immer “Nein” sagt, wird fast keine Distraktoren fälschlicherweise als “alte” Items bezeichnen, aber nur wenige Lernitems korrekt identifizieren • Problemstellung • Wie lässt sich die Wiedererkennensleistung unabhängig von der jeweils vorliegenden Reaktionsneigung bestimmen? WS 2003 / 2004, Prof. Dietrich Albert 24 Theorie der Signalentdeckung Zielsetzung • Die Theorie der Signalentdeckung (“Signal Detection Theory”, SDT) bietet einen formalen Rahmen zur statistischen Beschreibung des Entscheidungsverhaltens, wie es häufig in der Psychologie, aber auch in anderen Zusammenhängen auftritt • Bestimmung der Behaltensleistung in Wiedererkennungsexperimenten • Messung von Sinnesleistungen in der Psychophysik • Medizinische Diagnose beispielsweise auf der Grundlage von Röntgenaufnahmen oder anderen bildgebenden Verfahren • Kontrolle eines komplexen technischen Systems • Qualitätsprüfung in der industriellen Fertigung WS 2003 / 2004, Prof. Dietrich Albert 25 Theorie der Signalentdeckung Grundbegriffe • Die Anwendung der Theorie setzt eine Beschreibung der Welt durch durch zwei (Natur-)Zustände voraus, die als Rauschen (“Noise”, N) und Signal (“Signal”, S; “Signal + Noise”, S +N) bezeichnet werden • Beispiele • Vorliegen (S) eines alten, bereits gelernten Items, bzw. eines neuen Distraktor-Items (N) • Nicht-Vorhandensein (N) bzw. Vorhandensein (S) eines malignen Tumors • Nicht-Vorliegen (N) bzw. Vorliegen (S) einer Fehlfunktion eines komplexen Systems WS 2003 / 2004, Prof. Dietrich Albert 26 Theorie der Signalentdeckung Grundbegriffe • Den beiden Naturzuständen stehen zwei Antwortkategorien gegenüber • Die Antwort “Ja” (“Yes”, y), die das Vorliegen des Signals konstatiert • Mit der Antwort “Nein” (“No”, n) wird das Nicht-Vorliegen des Signals konstatiert • Damit ergeben sich aus der Kombination der beiden dichotomen Variablen 2 × 2 verschiedene Ereignisse WS 2003 / 2004, Prof. Dietrich Albert 27 Theorie der Signalentdeckung Grundbegriffe • Ereignisse WS 2003 / 2004, Prof. Dietrich Albert 28 Theorie der Signalentdeckung Anwendung auf Wiedererkennensexperiment • Naturzustände • Das Item war in der Lernliste enthalten (alt, S) • Das Item war nicht in der Lernliste enthalten (neu, N) • Antwortkategorien • Die Antwort “alt” konstatiert das Vorliegen eines Lernitems (y) • Die Antwort “neu” konstatiert das Vorliegen eines Distraktors (n) WS 2003 / 2004, Prof. Dietrich Albert 29 Theorie der Signalentdeckung Anwendung auf Wiedererkennensexperiment • Ereignisse WS 2003 / 2004, Prof. Dietrich Albert 30 Theorie der Signalentdeckung Grundbegriffe • Es werden zwei Stufen der Informationsverarbeitung angenommen • Die sensorische Information bezüglich des Vorliegens- bzw. NichtVorliegens eines Signals (bzw. die Stärke der Gedächtnisspur) wird aggregiert • Diese Information wird formal beschrieben durch eine Zufallsvariable X, die als Evidenzvariable bezeichnet wird • Auf dieser Evidenzvariablen operiert ein Entscheidungsmechanismus, der das Vorliegen bzw. Nicht-Vorliegen des Signals konstatiert • Es wird angenommen, dass ab einem kritischen Schwellenwert xc der Evidenzvariablen X eine “Ja”-Antwort erfolgt WS 2003 / 2004, Prof. Dietrich Albert 31 Theorie der Signalentdeckung Evidenzvariable WS 2003 / 2004, Prof. Dietrich Albert 32 Theorie der Signalentdeckung Grundbegriffe • Es werden die folgenden bedingten Wahrscheinlichkeiten betrachtet • Die Wahrscheinlichkeit P(x | S), dass die Evidenzvariable X (höchstens) den Wert x annimmt, gegeben es liegt der Naturzustand S vor • Die Wahrscheinlichkeit P(x | N), dass die Evidenzvariable X (höchstens) den Wert x annimmt, gegeben es liegt der Naturzustand N vor • Häufig wird angenommen, dass diese bedingten Wahrscheinlichkeiten jeweils durch eine Normalverteilung beschrieben werden WS 2003 / 2004, Prof. Dietrich Albert 33 Theorie der Signalentdeckung Normalverteilung • Die Normalverteilung spielt in Wahrscheinlichkeitstheorie, Statistik und psychologischer Theorienbildung eine zentrale Rolle, obwohl sie mathematisch nicht einfach zu handhaben ist • Für die normalverteilte Zufallsvariable X lässt sich die Wahrscheinlichkeit P(X ≤ x), dass X höchstens den Wert x annimmt, im Prinzip bestimmen • Die Verteilungsfunktion einer normalverteilten Zufallsvariablen X erhält man durch Integration der Dichtefunktion f(x) WS 2003 / 2004, Prof. Dietrich Albert 34 Theorie der Signalentdeckung Normalverteilung • Dichtefunktion der Normalverteilung • Die Dichtefunktion f(x) hängt von den beiden Parametern µ und σ > 0 ab und lautet • Der Parameter µ ist der Erwartungswert der Normalverteilung und kennzeichnet die Lage der Dichtefunktion • Der Parameter σ ist die Standardabweichung (bzw. σ2 die Varianz) der Normalverteilung und kennzeichnet die Breite der Dichtefunktion WS 2003 / 2004, Prof. Dietrich Albert 35 Theorie der Signalentdeckung Dichtefunktion der Normalverteilung WS 2003 / 2004, Prof. Dietrich Albert 36 Theorie der Signalentdeckung Dichtefunktion der Normalverteilung • Die Wahrscheinlichkeit P(X ≤ x0), dass X einen Wert von höchstens x0 annimmt, lässt sich (wegen ihrer Berechnung durch Integration) als Fläche “unter” der Dichtefunktion darstellen WS 2003 / 2004, Prof. Dietrich Albert 37 Theorie der Signalentdeckung Verteilungsfunktion der Normalverteilung • Trägt man die Wahrscheinlichkeit P(X ≤ x) gegen x auf, so erhält man eine sigmoidale Kurve, die so genannte (kumulative) Verteilungsfunktion der Normalverteilung WS 2003 / 2004, Prof. Dietrich Albert 38 Theorie der Signalentdeckung Standardnormalverteilung • Für eine Normalverteilung mit Erwartungswert µ und Varianz 2 schreibt man häufig • Ist die Zufallsvariable X normalverteilt gemäß N(µ, σ2), dann ist die Zufallsvariable Z, definiert durch N(0,1)-verteilt, d.h. normalverteilt mit Erwartungswert 0 und Varianz 1 (standardnormalverteilt) WS 2003 / 2004, Prof. Dietrich Albert 39