foolyc

Learning and Transfer of Modulated Locomotor Controllers

阅读论文《Learning and Transfer of Modulated Locomotor Controllers》过程的笔记记录。

简介

DeepMind的这篇文章,针对运动型任务,研究了一种新型的架构和训练过程。在该架构中,具有本体感应的高频传感器和低级「脊椎(spinal)」结构的网络通过对简单任务的训练来学习感觉运动的原理(primitives)。预训练的低阶模块,连接到一个低频、高级的「大脑皮层」网络,这个网络连接了所有的传感器,通过调控传输到「脊柱」网络的信息来控制行为。在单个端到端的架构完全失败的场景下,我们使用带预训练的「脊柱」架构能在多个高级任务中取得成功,并且还能在稀疏奖励空间(sparse reward)中能够进行有效探索。该文进行了 3 个模拟测试:16自由度的蛇,20自由度的四脚生物,以及54自由度的人。展示视频在youtube视频上。

spinal架构

img

该结构类似与人的肢体控制结构,分为高阶控制器(HLC)和低阶控制器(LLC),高阶控制器输出低阶控制器的调制模式信号,像人的中枢通过脊柱给肢体发送指令信号一样,而低阶控制器则负责完成一些低级/可复用的基础动作,类似与人肢体简单的抬手等基础动作。

如图所示, 低阶控制器LLC接受部分感知信号(o)与高阶控制器的模态信号(c),输出直接执行信号(a),并与环境交互,而高阶控制器(HLC)有权限接受所有感知信号,并输出低阶控制器的调制信号(c)。值得注意的是,高阶控制器和低阶控制器可以具有不同的控制频率

理论框架

低阶控制器为部分感知信号和调制模态信号到执行信号的映射,即

高阶控制器为循环神经网络,更新频率为K,则

可以看出高阶控制器输出的调制模态信号是一个分段阶梯信号。

训练

训练还是通用的强化学习框架,t时刻的未来回报,显然我们的优化目标为

根据RL with baseline,可以知道

其中不依赖于

未完待续

本文由foolyc创作和发表,采用BY-NC-SA国际许可协议进行许可
转载请注明作者及出处,本文作者为foolyc
本文标题为Learning and Transfer of Modulated Locomotor Controllers
本文链接为http://foolyc.com//2017/03/04/Learning-and-Transfer-of-Modulated-Locomotor-Controllers/.