Vortrags Übersicht Soar - ACT–R Unified Theory of Cognition Soar Seminar „Kognitive Modellierung“ Nadine Leßmann Freitag 9.5.2003 Unified Theory of Cognition (UTC) „Psychology has arrived at the possibility of unified theories of cognition – theories that gain their power by posting a single system of mechanisms that operate together to produce the full range of human cognition.“ (A. Newell 1990) Ein Basissatz an Mechanismen, die für alle Kognitionsprozesse verantwortlich sind Auffinden einheitsstiftender Prinzipien Geist ist ein einzelnes Gesamtsystem Hypothesen Verarbeitungszyklus Production Memory Working Memory Preference Memory Entscheidungszyklus Automatisches Subgoaling Lernen – Chunking Zusammenfassung ACT-R Konzeption Struktureller Aufbau Hybrid Struktur Symbolisch (Modular, Buffer, Goal) Deklaratives Gedächtnis Prozedurales Gedächtnis Subsymbolische Verarbeitung Zusammenfassung Einige Phänomene die UTC erklären muss Wie intelligente Organismen flexibel auf ihre Umgebung reagieren Wie sie über ein zielgerichtetes Verhalten verfügen und ihre Ziele rational wählen Wie sie Symbole benutzen Wie sie aus Erfahrung lernen 1 Constraints a Human Cognitive Architecture 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. Soar Behave as an (almost) arbitrary function of the environment (universality) Operate in real time Exhibit rational, i.e., effective adaptive behavior Use vast amount of knowledge about the environment Behave robustly in the face of error, the unexpected, and the unknown Use symbols (and abstractions) Use (natural) language Exhibit self-awareness and a sense of self Learn from its environment Acquire capabilities through development Arise through evolution Be realizable in brain (Newell 1980) Hypothesen denen Soar folgt S12 S3 goal operator S1 f1 v1 f2 v1 initial f1 v1 state S0 f2 v2 state - Repräsentation einer Problemlösungs-Situation S2 operator – transformiert einen Zustand durch Anwendung einer Aktion f1 v2 f2 v1 f1 v5 f2 v1 f1 v3 f2 v6 f1 v4 S34 f2 v2 goal state … S4 f1 v2 S91 f2 v8 f1 v7 f2 v5 goal state … S42 f1 v7 f2 v12 Entwickelt 1982 von Allen Newell, John Laird, Paul Rosenbloom Kandidat für die UTC Architektur für allgemeine Intelligenz Beschreibt einen Satz von Prinzipien und Einschränkungen, basierend auf einer Theorie der kognitiven Verarbeitung Integration von Wissen, Planen, Reaktionen, Suche, Lernen in einer effizienten, kognitiven Architektur „Engine for applying knowledge to situations to yield behavior“ Soar Verarbeitungszyklus Physical Symbol Hypothesis (symbol-based) Goal Structure Hypothesis (Context Stack) Uniform Elementary-Representation Hypothesis (Production) Universal and Automatic-Subgoaling Hypothesis problem space Uniform-learning Hypothesis (Chunking) Problem space Hypothesis … problem space – goal – angestrebte Situation recognize-decide-act Kontrollstruktur Satz von Zuständen und Operatoren Elaborationsphase Entscheidungsphase Operatorvorschläge Operatorauswahl Operatoranwendung 2 Produktions-Gedächtnis Langzeit Gedächtnis Produktions-Regel: if x then y Effizienter Symbolic-Pattern-Matcher Bedingungen (aktuelle Ziele, Problemraum, KontextStack, Zustände, Operatoren) Regeln Domainenwissen Basiswissen (welche Operatoren sind wann anwendbar und haben welche Effekte) Kontrollwissen (Hilfen, Anleitung für die Entscheidung was zu tun ist, Heuristiken) Working Memory (WM) Elaboration Rules Regeln, die das Wissen, welches schon implizit durch den Zustand gegeben ist, explizit machen (monoton, additiv) Operator Applications Regeln, welche den Zustand (Kontext-Stack) ändern, sie verändern oder löschen aber keine bestehenden Informationen (non-sticky) i-support (rule instantiation) (sticky) Informationen bleiben auch dann bestehen wenn Bedingung der Operatoren nicht mehr gelten, o-support Truth/Belief Maintenance Preference Memory Temporär Deliberation wird durch explizite Repräsentation von Präferenzen gelenkt Menge von Working-Memory-Elementen (WMEs), welche aus AttributWert Paaren bestehen und das aktuelle Wissen kodieren Assoziative Mechanismen, Regeln feuern so lange, bis keine Regel mehr anwendbar ist, durch neue Einträge ins WM kann weitere Information assoziiert werden Alle Regeln feuern parallel, das kann zu Konflikten/Inkonsistenzen führen Preference Memory = Speichert Vorschläge über Änderungen des WMs, Context Stacks Regeln stimmen mittels Präferenz-Werten über Änderungen ab Beispiele für Präferenz-Werte: Alle Regeln feuern parallel, es wird keine Konflikt Resolution benötigt Simultan wird sämtliche relevante Information aktiviert (Problem Dekomposition, Analogien, andere Lösungsmethoden) Kontext-Stack (alle Ziele, Problemräume, Zustände, Operatoren) + acceptable: ein Objekt muss den Wert “acceptable” um berücksichtigt zu werden reject: das Objekt kann nicht gewählt werden < better, best: ein Objekt ist besser als ein anderes, oder das beste < worse, worst: entsprechend = indifferent: ein Objekt ist gleichwertig in Bezug auf ein anderes (indifferent) & parallel: ein Objekt kann ein Wert von mehreren sein Alle Elemente sind jeweils mit zugehörigen Ziel verknüpft 3 Decision cycle Entscheidungsphase decision cycle D E elaboration cycle Entscheidungsprozedur platziert Information über nächsten Schritt ins WM Verschiedene Arten von Impasses (Sackgasse, auswegslose Situation) können entstehen meistens Operator-Impasse: 1. Einzelner Operator mit höchster Präferenz 2. Indifferente Präferenzen für mehrere Operatoren 3. Mehrere unterschiedliche Operatoren mit widersprechenden oder gleichen Präferenzen 4. Kein Operator D D D D D preference phase non-context changes quiescence context changes, substate creation/removal Automatisches Subgoaling Entsteht ein Impasse, so wird mittels Subgoaling automatisch ein Unterziel aufgeworfen, um den Impasse zu beseitigen Task Decomposition Neuer Problem Kontext entsteht Durch den Prozess der Dekomposition wird der Problemraum eingeschränkt, der Agent fokussiert nur den aktuellen Zustand und bedenkt die aktuell möglichen Operationen Es können somit multiple Problemräume simultan genutzt werden und jeweils das spezifische Wissen je Zustand generiert werden Auswahl Zufallsauswahl Impasse - Subgoaling Impasse - Subgoaling Impasse – Chunking Subgoaling (neuer Kontext) Hinzunahme von Wissen Dekomposition (Meta-Level Reasoning) IMPASSE C 2 1 A Wenn Impasse gelöst, daraus lernen D 3 R B 4 E Ein neuer Chunk besteht aus einer Produktions- Regel, welche den Lösungsprozess (beteiligte WMEs dienen als Bedingung) zusammenfasst und generalisiert Chunk: A & B & D ⇒ R Circles are WMEs or sets of WMEs Bold circles indicate nodes essential to the resolution Arrow sets going into a node are rules that fire to add it Numbered nodes are WMEs in the impasse 4 Lernen Lern-Mechanismus ist vollends in der Soar Architektur integriert Überall vorhanden, gilt automatisch für sämtliches Schlussfolgern Lernen von: Flexibel Chunking Mechanismus verdeutlicht: Soar ist rein symbolbasiert Chunking Assoziatives Gedächtnis wann etwas gelernt wird was gelernt wird warum es gelernt wird ACT-R neuem konzeptuellen Wissen neuen Produktionsregeln Korrigieren von Wissen Kognitive Architektur, Framework Akronym: ACT = Adaptive Control Theory R = Rational Analysis (Anderson 1993) Rationale Analysis betont, dass Kognition sich an die statistische Struktur der Umwelt angepasst hat Mehrere unabhängige Module, welche gekapselt Informationen verarbeiten Produktionssystem als zentrale Komponente Hybrid, sowohl symbolbasierte als auch sub-symbolische Prozesse Erlaubt quantitative Messungen, die mit menschlichen Werten verglichen werden können ACT-R Struktureller Aufbau Hybrid Buffer Visual + Motor Module Production System Intentional Module (not identified) Declarative Module (Temporal/Hippocampus) Goal Buffer (DLPFC) Productions (Basal Ganglia) Zusammenfassung Retrieval Buffer (VLPFC) Matching (Striatum) Selection (Pallidum) Execution (Thalamus) Visual Buffer (Parietal) Visual Module (Occipital/etc) Manual Buffer (Motor) Manual Module (Motor/Cerebellum) Environment 5 Hybrid Architektur Symbolische Struktur Chunks ( CHUNK-TYPE NAME SLOT1 SLOT2 SLOTN ) Produktionsregeln (p name BufferBuffer-Tests => BufferBuffer-Transformations ) Subsymbolische Kontrollstrukturen in prozeduralem Gedächtnis (mathematische Gleichungen) Verantwortlich für Latenz, Generalisierungen, Variabilität des menschlichen Verhalten Aktivierung und Abruf von Informationen Auswahl von Produktionsregeln Lernen (Tuning, Anpassen der Parameter) Beispiel Produktion (P initialize-addition =goal> ISA add arg1 =num1 arg2 =num2 sum nil ==> =goal> sum =num1 count 0 +retrieval> isa count-order first =num1 ) English Description If the goal is to add the arguments =num1 and =num2 but the sum has not been set Then change the goal by setting the sum to =num1 and setting the count to 0 and request a retrieval of a chunk of type count-order for the number that follows =num1 Chunks Beispiele (CHUNK-TYPE addition-fact summand1 summand2 summe) (CHUNK-TYPE integer value) (ADD-DM (fact3+4 isa addition-fact summand1 three summand2 four summe seven) (three isa integer value 3) (four isa integer value 4) IF the goal is to add two digits d1 d2 (seven and d1+d2 = d3 isa integer THEN set as a subgoal to write d3 value 7) Modularität - Buffer Information werden in Modulen gekapselt, aber über Buffer in Form von Chunks verfügbar gemacht goal buffer, retrieval buffer, visual buffer, manual buffer Buffer dienen als Sichtfenster der einzelnen Module und enthalten nur eine geringe Menge der aktuell relevanten Informationen (einen Chunk) Chunks, die zuvor in einem Buffer zur Verfügung gestellt wurden, werden im Deklarativen Gedächtnis als dauerhaftes Wissen abgespeichert 6 Deklaratives Gedächtnis Goal Memory • Langzeit Gedächtnis, enthält Chunks (repräsentiert Informationen über wahrgenommene Objekte, allgemeines Wissen) •Aktivierungsfunktion: Abruf Wissen activation base = activation + ( A i = Bi + ∑ Wj ⋅ Sji + ∑ MPk ⋅ Simkl + N(0,s) j )( associative source activation* strength + k ) mismatch similarity penalty * value + noise Base-level: allgemeine Nützlichkeit in der Vergangenheit Associative Activation: Relevanz im aktuellen Kontext Matching Penalty: Kontrolle über Gedächtnisabruf, Ähnlichkeitsmaß Noise: stochastisch, nützlich um nicht in lokalen Minima hängen zu bleiben Prozedurales Gedächtnis Langzeitgedächtnis, enthält Produktionsregeln Kodiert die Verfahren und Fertigkeiten, die nötig sind, um ein Ziel zu erreichen Pattern Recogntion Function (Partial matching) Aktualisieren der Buffer Vorteil der menschlichen Kognition: Fähigkeit der Abstraktion in Bezug auf Inhalt und Kontrolle enthält Chunks (repräsentieren das Ziel) nur das oberste, aktuelle Ziel ist sichtbar Das Goal Module ist dafür verantwortlich Übersicht und Kontrolle über die Intentionen zu bewahren, so dass das Verhalten sich an den Zielen orientiert Untersuchung der Informationen im Goal Buffer = Bewusstsein Produktionsregeln Produktionsregeln = Condition-Action, feuern, wenn die Bedingungen erfüllt sind und führen dann die entsprechenden Aktionen aus Erste Bedingung wird gegen das aktuelle Ziel getestet (aber auch allein daten-getriebenes Auslösen von Regeln möglich) Bedingungen: aktuelles Ziel, Zustand des deklarativen Gedächtnisses, sensorischer Input Aktionen: Änderungen des deklarativen Gedächtnisses, Änderungen des Ziel, initiieren von Motoraktionen 7 Konflikt Resolution - Utilities Mehrere Produktionsregeln anwendbar – nur eine Regel kann ausgeführt werden – Konflikt Resolution Utilities = verrauschte, kontinuierlich Werte Ui = PiG − Ci Pi = geschätzte Wahrscheinlichkeit, dass das aktuelle Ziel erreicht wird, wenn Produktion i gewählt wird G = Wert des aktuellen Ziels Ci = geschätzte Kosten für das Erreichen des Ziels Conception of Mind 1. 2. 3. 4. 5. 6. Bayesian Learning Entwicklung ACT Deklaratives Gedächtnis + Produktion System (Theorie des prozeduralen Gedächtnisses (1973) ACT* Unterscheidung symbolische/sub-symbolische Ebene der Theorie (1983) ACT-R Verheiraten von ACT mit der Rational Analysis, welche besagt, dass Kognition sich an die stochastische Struktur der Umgebung angepasst hat (1993) ACT-R 2.0 laufende Simulation wurde verteilt ACT-R 4.0 Verbesserungen + optionale Wahrnehmungs-Motor Komponente (ACT-R/PM) ACT-R 5.0 weitere Entwicklungen aufgrund von Erfahrungen (Modul-Buffer Konzeption, Lernmechanismen, Integration von ACT-R/PM) Mehrere unabhängige Module, welche gekapselt Informationen verarbeiten Module legen Ergebnisse in Buffer ab, auf welchen wiederum das Produktion System operieren kann Nur eine einzelne Produktion feuert in einem Zyklus, aktualisiert Buffer, stößt Informationsverarbeitung an Aktivierungsfunktion von Chunks Lernen: Aneignen neuer Chunks, neuer Produktionen und Tuning von Parametern Prozesse sind stochastischer Natur, Echtzeit Literatur Allen Newell “Unified Theory of Cognition”, Harvard University Press 1990 John E. Laird, Paul S. Rosenbloom, “The Evolution of the Soar Architecture”, in “Mind Matters: A Tribute to Allen Newell”, Lawrence Erlbaum Associates, Inc, David M. Steier, Tom M. Mitchell (Eds), 150, 1996 J.F. Lehman, J.Laird, P. Rosenbloom 1998, “A Gentle Introduction to Soar, an Architecture for Human Cognition” in S. Sternberg & D.Scarborough (Eds.) Invitation to Cognitive Science (Volume 4) 221-253, Cambride, MA: MIT Press Richard L.Lewis “Cognitive Theory, SOAR”, International Encyclopedia of the Social and Behavioral Sciences ,Amsterdam: Pergamon (Elsevier Science), 2001 J.R. Anderson, D.Bothell, M.D. Byrne, C.Lebiere “An Integrated Theory of Mind”, Psychological Review, 2002 J.R. Anderson, C. Lebiere “The Newell Test for a Theory of Mind”, to be published in Behavioral and Brain Science, Cambridge University Press, 2003 Todd R.Johnson “Control in Act-R and Soar”, in M. Shafto & P. Langley (Eds), Proceedings of the 19th Annual Conference of the Cognitive Science Society, 343-348: Hillsdale, NJ: Lawrence Erlbaum Associates Talk ICCM 2003 Bamberg, Christian Lebiere “Introduction to ACT-R 5.0, Tutorial” Talk ICCM 2003 Bamberg, Frank Ritter “An Introduction to the Soar Cognitive Architecture” Richard M. Young “Brief Introduction to ACT-R for Soarers: Soar and ACT-R Still have Much to learn from Each Other”, Talk presented at 19th Soar Workshop University of Michigan, 1999 Homepage ACT-R : http://act-r.psy.cmu.edu Homepage Soar: http://ai.eecs.umich.edu/soar, http://ai.eecs.umich.edu/cogarch/soar 8