Diss. ETH No. 18766 The Dynamics of Perceptual and Behavioral Learning in Executive Control A dissertation submitted to ETH ZURICH for the degree of Doctor of Sciences presented by ARMIN DUFF Dipl. Phys. ETH Zurich born November 5, 1978 citizen of Sumvitg, Graubünden accepted on the recommendation of Prof. Rodney J. Douglas, examiner Prof. Paul F.M.J. Verschure, co-examiner Prof. Cyriel M.A. Pennartz, co-examiner 2009 Abstract Humans and animals make optimal use of the information present in the environment and their knowledge to achieve their goals. This raises the fundamental question of how biological systems attain knowledge, and organize it into intelligent adaptive behavior while interacting with the environment. Sensory-motor contingencies have recently been suggested as the basic building blocks underlying the control of behavior. Sensory-motor contingencies combine perceptual input and the related motor action in a single internal representation. These internal representations are subsequently manipulated in order to structure and plan behavior. Based on these assumptions the Distributed Adaptive Control (DAC) architecture has been proposed as a general theory for the control of robots and artifacts. DAC comprises three tightly interacting layers: reactive, adaptive and contextual, bootstrapping its behavior form simple to advance interactions. Following this approach, a novel environmentally mediated feedback loop in the organization of perception and behavior has been identified. How sensorymotor contingencies are formed and combined into behavioral strategies remains however a fundamental question. In this thesis we advance and further ground the DAC architecture in biology. This allows investigating both, how sensory-motor contingencies are formed and how they are manipulated to form rules and plans. The formation of sensory-motor contingencies has been suggested to depend on perceptual and behavioral learning. In biology these two forms of learning are tightly interlinked. In contrast, theoretical studies treat perceptual and behavioral learning mostly in separation, ignoring their apparent interaction. Our aim is to overcome this limitation by studying the formation of sensory-motor contingencies in the context of the adaptive layer of DAC. To reach a unification of perceptual and behavioral learning we propose prediction as the fundamental principle underlying these two forms of learning. Perceptual learning optimizes the ability to predict the external world given the internal state, whereas behavioral learning optimizes the ability to predict the behavioral consequences. Based on a VII VIII Abstract formal analysis we propose two new learning rules for the adaptive layer, Correlative Subspace Learning (CSL) and Predictive Correlative Subspace learning (PCSL). We test these learning rules both in numerical simulations and in an agent foraging task. We show that the two learning rules can successfully guide behavior and form adequate internal representations. We find that a dynamic adaptation of the balance between perceptual and behavioral learning is essential to this process. In the numerical simulation we show inter alia that PCSL can account for a series of important properties of classical conditioning. Further we show that PCSL is able to adapt to changes in the environment. Together, these results support the notion of prediction as a general principal for unifying perceptual and behavioral learning. The combination of sensory-motor contingencies with rules and plans in animals is suggested to strongly involve the prefrontal cortex (PFC). Prominent properties of the PFC supporting this function are sustained, reward modulated activity and lateral connectivity. Based on theses properties we propose a reformulation of the contextual layer. The lateral connectivity allows learning the relational structure between sensory-motor contingencies where the reward modulation of the activity allows validating these relations. In this way, the PFC-grounded contextual layer acquires an internal model of the world. In single and multiple T-maze tasks we show that the PFC-grounded contextual layer is able to learn sequential rules and adapt to changing reward contingencies. Further, we show that the acquired worldmodel can be exploited for planning. These results show how the manipulation of sensory-motor contingencies can explain rule learning, adaptation and planning in biological systems. The integration of the PCSL adaptive layer and the PFC-grounded contextual layer leads to the next generation of the DAC architecture, i.e. DAC 6. On the one hand DAC 6 improves, grounded on a formal analysis, the adaptability and behavioral capabilities of the architecture. On the other hand the development of DAC 6 allowed us to study the dynamics of perceptual and behavioral leaning at different levels. As a whole, this thesis proposes a concrete solution for the fundamental problem of how an artifact can acquire internal representation of a changing environment and use these representations to guide its behavior. Zusammenfassung Menschen und Tiere nutzen ihr Wissen und die Information, die in der Umwelt vorhanden ist, optimal, um ihre Ziele zu erreichen. Es stellt sich die grundlegende Frage, wie biologische Systeme in der Interaktion mit der Umwelt Wissen erlangen und organisieren, um adaptives und intelligentes Verhalten hervorzubringen. Erst kürzlich wurden sensory-motor contingencies als die Grundbausteine für Verhaltenskontrolle vorgeschlagen. Sensory-motor contingencies vereinen Wahrnehmung und das dazugehörende Verhalten in einer einzelnen internen Repräsentation. Die Koordination und Planung von Verhalten entsteht durch die Manipulation dieser internen Repräsentationen. Auf diesen Annahmen wurde die Distributed Adaptive Control (DAC) Architektur als eine allgemeine Theorie für die Kontrolle von Robotern und Artefakten vorgeschlagen. DAC besteht aus drei sich gegenseitig beeinflussenden layers: reactive, adaptive und contextual, welche komplexeres Verhalten aus einfachen Interaktionen schrittweise hervorbringen. Mit diesem Ansatz ist ein neuartiger durch die Umwelt vermittelter Feedback-Loop in der Organisation von Wahrnehmung und Verhalten entdeckt worden. Wie sensory-motor contingencies gebildet und zu intelligentem Verhalten kombiniert werden, bleibt jedoch eine offene Frage. In dieser Arbeit verbessern wir die DAC-Architektur und fundieren sie fester in der Biologie. Dies erlaubt uns zu untersuchen, wie sensory-motor contingencies gebildet und manipuliert werden, um Regeln und Pläne hervorzubringen. Die Bildung von sensory-motor contingencies basiert auf Lernen von Wahrnehmung und Verhalten. In der Biologie sind diese beiden Formen des Lernens eng miteinander verknüpft. Im Gegensatz dazu behandeln theoretische Studien das Lernen der Wahrnehmung und des Verhaltens meistens getrennt und vernachlässigen ihre offensichtliche Verknüpfung. Unser Ziel ist es, diesen Mangel zu überwinden, indem wir untersuchen wie sensorymotor contingencies in DACs adaptive layer gebildet werden. Wir identifizieren Vorhersage als das grundlegende Prinzip zur Vereinheitlichung des Lernens von Wahrnehmung und Verhalten. Das Lernen von Wahrnehmung IX X Zusammenfassung optimiert die Fähigkeit, die äuere Welt auf Grund der internen Repräsentation vorherzusagen. Das Lernen von Verhalten hingegen optimiert die Fähigkeit, die Konsequenzen des Verhaltens vorherzusagen. Basierend auf einer formalen Analyse schlagen wir zwei neue Lernregeln für den adaptive layer vor, Correlative Subspace-Learning (CSL) und Predictive Correlative Subspace Learning (PCSL). Wir testen diese Lernregeln sowohl in numerischen Simulationen als auch in einer Futtersuchaufgabe mit einem Roboter. Wir zeigen, dass die beiden Lernregeln sowohl erfolgreiches Verhalten, als auch angemessene interne Repräsentationen hervorbringen. Eine dynamische Anpassung des Gleichgewichts zwischen dem Lernen von Wahrnehmung und Verhalten ist für diesen Prozess jedoch notwendig. In numerischen Simulationen zeigen wir unter anderem, dass PCSL mehrere wichtige Eigenschaften der klassischen Konditionierung erklären kann. Ferner zeigen wir, dass PCSL in der Lage ist, sich Veränderungen in der Umwelt anzupassen. Zusammen unterstützen diese Ergebnisse die Idee, dass Vorhersage als allgemeines Prinzip zur Vereinheitlichung des Lernens von Wahrnehmung und Verhalten dienen kann. Die Kombination von sensory-motor contingencies zu Regeln und Plänen steht bei Tieren im engen Zusammenhang mit dem präfrontalen Kortex (PFC). Wichtige Eigenschaften des PFC, die diese Funktion unterstützen, sind belohnungsmodulierte transiente Aktivität und laterale Verbindungen. Basierend auf diese Eigenschaften, haben wir den contextual layer neu konzipiert. Die lateralen Verbindungen ermöglichen das Erlernen der relationalen Struktur zwischen den sensory-motor contingencies. Die Modulierung der Aktivität durch die Belohung ermöglicht die Bewertung dieser Relationen. Auf diese Weise, erwirbt der PFC-basierte contextual layer ein internes Modell der Welt. In Einzel- und Mehrfach-T-Labyrinthen zeigen wir, dass der PFC-basierte contextual layer in der Lage ist, sequentielle Regeln zu lernen und sich Änderungen anzupassen. Darüber hinaus zeigen wir, dass das erworbenen Modell der Welt für Verhaltensplanung genutzt werden kann. Diese Ergebnisse zeigen, dass es möglich ist, die Fähigkeit von Tieren, Regeln zu lernen, sich anzupassen und zu planen, durch die Manipulation von sensory-motor contingencies erklärt werden kann. Die Integration des PCSL adaptive layer und des PFC-basierte contextual layer führt zur nächsten Generation der DAC-Architektur, DAC 6. Die auf einer formalen Analyse gegründeten Änderungen in DAC 6 verbessern Zusammenfassung XI auf der einen Seite die Anpassungs- und Verhaltensfähigkeiten der Architektur. Auf der anderen Seite erlaubte die Entwicklung von DAC 6, die Dynamik des Lernens von Wahrnehmung und Verhalten auf verschiedenen Ebenen zu erforschen. Im Ganzen schlägt diese Arbeit eine konkrete Lösung für das grundlegende Problem vor, wie ein Artefakt interne Repräsentationen einer sich verändernden Umwelt erwerben und verwenden kann, um sein Verhalten zu kontrollieren.