The Dynamics of Perceptual and Behavioral - ETH E

Werbung
Diss. ETH No. 18766
The Dynamics of Perceptual and
Behavioral Learning in Executive
Control
A dissertation submitted to
ETH ZURICH
for the degree of
Doctor of Sciences
presented by
ARMIN DUFF
Dipl. Phys. ETH Zurich
born November 5, 1978
citizen of Sumvitg, Graubünden
accepted on the recommendation of
Prof. Rodney J. Douglas, examiner
Prof. Paul F.M.J. Verschure, co-examiner
Prof. Cyriel M.A. Pennartz, co-examiner
2009
Abstract
Humans and animals make optimal use of the information present in the
environment and their knowledge to achieve their goals. This raises the
fundamental question of how biological systems attain knowledge, and organize it into intelligent adaptive behavior while interacting with the environment. Sensory-motor contingencies have recently been suggested as the
basic building blocks underlying the control of behavior. Sensory-motor
contingencies combine perceptual input and the related motor action in a
single internal representation. These internal representations are subsequently manipulated in order to structure and plan behavior. Based on these
assumptions the Distributed Adaptive Control (DAC) architecture has been
proposed as a general theory for the control of robots and artifacts. DAC
comprises three tightly interacting layers: reactive, adaptive and contextual,
bootstrapping its behavior form simple to advance interactions. Following
this approach, a novel environmentally mediated feedback loop in the organization of perception and behavior has been identified. How sensorymotor contingencies are formed and combined into behavioral strategies
remains however a fundamental question. In this thesis we advance and
further ground the DAC architecture in biology. This allows investigating
both, how sensory-motor contingencies are formed and how they are manipulated to form rules and plans.
The formation of sensory-motor contingencies has been suggested to
depend on perceptual and behavioral learning. In biology these two forms
of learning are tightly interlinked. In contrast, theoretical studies treat perceptual and behavioral learning mostly in separation, ignoring their apparent interaction. Our aim is to overcome this limitation by studying the
formation of sensory-motor contingencies in the context of the adaptive
layer of DAC. To reach a unification of perceptual and behavioral learning we propose prediction as the fundamental principle underlying these
two forms of learning. Perceptual learning optimizes the ability to predict the external world given the internal state, whereas behavioral learning
optimizes the ability to predict the behavioral consequences. Based on a
VII
VIII
Abstract
formal analysis we propose two new learning rules for the adaptive layer,
Correlative Subspace Learning (CSL) and Predictive Correlative Subspace
learning (PCSL). We test these learning rules both in numerical simulations
and in an agent foraging task. We show that the two learning rules can successfully guide behavior and form adequate internal representations. We
find that a dynamic adaptation of the balance between perceptual and behavioral learning is essential to this process. In the numerical simulation
we show inter alia that PCSL can account for a series of important properties of classical conditioning. Further we show that PCSL is able to adapt
to changes in the environment. Together, these results support the notion
of prediction as a general principal for unifying perceptual and behavioral
learning.
The combination of sensory-motor contingencies with rules and plans in
animals is suggested to strongly involve the prefrontal cortex (PFC). Prominent properties of the PFC supporting this function are sustained, reward
modulated activity and lateral connectivity. Based on theses properties we
propose a reformulation of the contextual layer. The lateral connectivity allows learning the relational structure between sensory-motor contingencies
where the reward modulation of the activity allows validating these relations. In this way, the PFC-grounded contextual layer acquires an internal
model of the world. In single and multiple T-maze tasks we show that the
PFC-grounded contextual layer is able to learn sequential rules and adapt to
changing reward contingencies. Further, we show that the acquired worldmodel can be exploited for planning. These results show how the manipulation of sensory-motor contingencies can explain rule learning, adaptation
and planning in biological systems.
The integration of the PCSL adaptive layer and the PFC-grounded contextual layer leads to the next generation of the DAC architecture, i.e. DAC 6.
On the one hand DAC 6 improves, grounded on a formal analysis, the
adaptability and behavioral capabilities of the architecture. On the other
hand the development of DAC 6 allowed us to study the dynamics of perceptual and behavioral leaning at different levels. As a whole, this thesis
proposes a concrete solution for the fundamental problem of how an artifact can acquire internal representation of a changing environment and use
these representations to guide its behavior.
Zusammenfassung
Menschen und Tiere nutzen ihr Wissen und die Information, die in der
Umwelt vorhanden ist, optimal, um ihre Ziele zu erreichen. Es stellt sich
die grundlegende Frage, wie biologische Systeme in der Interaktion mit
der Umwelt Wissen erlangen und organisieren, um adaptives und intelligentes Verhalten hervorzubringen. Erst kürzlich wurden sensory-motor
contingencies als die Grundbausteine für Verhaltenskontrolle vorgeschlagen. Sensory-motor contingencies vereinen Wahrnehmung und das dazugehörende Verhalten in einer einzelnen internen Repräsentation. Die Koordination und Planung von Verhalten entsteht durch die Manipulation dieser
internen Repräsentationen. Auf diesen Annahmen wurde die Distributed
Adaptive Control (DAC) Architektur als eine allgemeine Theorie für die
Kontrolle von Robotern und Artefakten vorgeschlagen. DAC besteht aus
drei sich gegenseitig beeinflussenden layers: reactive, adaptive und contextual, welche komplexeres Verhalten aus einfachen Interaktionen schrittweise hervorbringen. Mit diesem Ansatz ist ein neuartiger durch die Umwelt vermittelter Feedback-Loop in der Organisation von Wahrnehmung
und Verhalten entdeckt worden. Wie sensory-motor contingencies gebildet
und zu intelligentem Verhalten kombiniert werden, bleibt jedoch eine offene Frage. In dieser Arbeit verbessern wir die DAC-Architektur und fundieren sie fester in der Biologie. Dies erlaubt uns zu untersuchen, wie
sensory-motor contingencies gebildet und manipuliert werden, um Regeln
und Pläne hervorzubringen.
Die Bildung von sensory-motor contingencies basiert auf Lernen von
Wahrnehmung und Verhalten. In der Biologie sind diese beiden Formen des
Lernens eng miteinander verknüpft. Im Gegensatz dazu behandeln theoretische Studien das Lernen der Wahrnehmung und des Verhaltens meistens
getrennt und vernachlässigen ihre offensichtliche Verknüpfung. Unser Ziel
ist es, diesen Mangel zu überwinden, indem wir untersuchen wie sensorymotor contingencies in DACs adaptive layer gebildet werden. Wir identifizieren Vorhersage als das grundlegende Prinzip zur Vereinheitlichung des
Lernens von Wahrnehmung und Verhalten. Das Lernen von Wahrnehmung
IX
X
Zusammenfassung
optimiert die Fähigkeit, die äuere Welt auf Grund der internen Repräsentation vorherzusagen. Das Lernen von Verhalten hingegen optimiert die
Fähigkeit, die Konsequenzen des Verhaltens vorherzusagen. Basierend auf
einer formalen Analyse schlagen wir zwei neue Lernregeln für den adaptive layer vor, Correlative Subspace-Learning (CSL) und Predictive Correlative Subspace Learning (PCSL). Wir testen diese Lernregeln sowohl in
numerischen Simulationen als auch in einer Futtersuchaufgabe mit einem
Roboter. Wir zeigen, dass die beiden Lernregeln sowohl erfolgreiches Verhalten, als auch angemessene interne Repräsentationen hervorbringen. Eine
dynamische Anpassung des Gleichgewichts zwischen dem Lernen von Wahrnehmung und Verhalten ist für diesen Prozess jedoch notwendig. In numerischen Simulationen zeigen wir unter anderem, dass PCSL mehrere
wichtige Eigenschaften der klassischen Konditionierung erklären kann. Ferner zeigen wir, dass PCSL in der Lage ist, sich Veränderungen in der
Umwelt anzupassen. Zusammen unterstützen diese Ergebnisse die Idee,
dass Vorhersage als allgemeines Prinzip zur Vereinheitlichung des Lernens
von Wahrnehmung und Verhalten dienen kann.
Die Kombination von sensory-motor contingencies zu Regeln und Plänen steht bei Tieren im engen Zusammenhang mit dem präfrontalen Kortex
(PFC). Wichtige Eigenschaften des PFC, die diese Funktion unterstützen,
sind belohnungsmodulierte transiente Aktivität und laterale Verbindungen.
Basierend auf diese Eigenschaften, haben wir den contextual layer neu
konzipiert. Die lateralen Verbindungen ermöglichen das Erlernen der relationalen Struktur zwischen den sensory-motor contingencies. Die Modulierung der Aktivität durch die Belohung ermöglicht die Bewertung dieser
Relationen. Auf diese Weise, erwirbt der PFC-basierte contextual layer ein
internes Modell der Welt. In Einzel- und Mehrfach-T-Labyrinthen zeigen
wir, dass der PFC-basierte contextual layer in der Lage ist, sequentielle
Regeln zu lernen und sich Änderungen anzupassen. Darüber hinaus zeigen
wir, dass das erworbenen Modell der Welt für Verhaltensplanung genutzt
werden kann. Diese Ergebnisse zeigen, dass es möglich ist, die Fähigkeit
von Tieren, Regeln zu lernen, sich anzupassen und zu planen, durch die
Manipulation von sensory-motor contingencies erklärt werden kann.
Die Integration des PCSL adaptive layer und des PFC-basierte contextual layer führt zur nächsten Generation der DAC-Architektur, DAC 6. Die
auf einer formalen Analyse gegründeten Änderungen in DAC 6 verbessern
Zusammenfassung
XI
auf der einen Seite die Anpassungs- und Verhaltensfähigkeiten der Architektur. Auf der anderen Seite erlaubte die Entwicklung von DAC 6, die
Dynamik des Lernens von Wahrnehmung und Verhalten auf verschiedenen Ebenen zu erforschen. Im Ganzen schlägt diese Arbeit eine konkrete
Lösung für das grundlegende Problem vor, wie ein Artefakt interne Repräsentationen einer sich verändernden Umwelt erwerben und verwenden
kann, um sein Verhalten zu kontrollieren.
Herunterladen