我们能不能像研究老鼠一样研究AI?或许。在ICLR2020Spotlight论文中,来自DeepMind和哈佛大学的研究人员构建了一种基于AI的虚拟鼠标,可以执行复杂的任务,例如奔跑、跳跃、觅食和击球。他们还在尝试使用神经科学技术来了解这种“人工大脑”是如何控制其行为的。或许这一成果可以为我们的人工智能研究提供新的思路。人工神经网络是目前最先进的人工智能,是一类由多层神经元互连组件组成的机器学习算法,而“神经元”最初的灵感来自于大脑的结构。虽然人工神经网络中的神经元与实际人脑中的神经元工作方式肯定不同,但越来越多的研究人员认为,将两者结合起来研究不仅可以帮助我们理解神经科学,还可以帮助我们创造更智能的人工智能。DeepMind和哈佛大学的研究人员已经探索了这一思路。他们提出的是一个可以在模拟环境中由神经网络控制的鼠标的3D模型。同时,他们利用神经科学技术对小鼠大脑的生物活动进行分析,从而了解神经网络是如何控制小鼠行为的。这篇论文目前被接受为ICLR2020会议的Spotlight论文。论文链接:https://openreview.net/pdf?id=SyxrxR4KPS论文作者之一,哈佛大学研究员JesseMarshall表示,这个平台相当于神经科学领域的风洞,可以测试不同的神经网络来了解如何面对复杂的现实世界挑战。“在神经科学的典型实验中,研究人员通常会使用敲击杠杆等单一行为来窥探动物的大脑活动,而且大多数机器人也是为解决自定义任务而制造的,比如机器人吸尘器。这篇文章被认为是我们研究大脑如何产生和实现灵活性的开始,然后我们可以根据我们观察到的结果设计具有类似功能的人工智能产品。”研究过程构建虚拟鼠标如下图1所示。研究人员根据实验室小鼠的大小,在MuJoCo环境中实现了虚拟小鼠身体(Todorovetal,2012)。这只老鼠有38个可控自由度,它的尾巴、脊柱和颈部包含多个关节,这些关节由肌腱控制,这些肌腱共同驱动多个关节(MuJoCo中的空间肌腱)。该虚拟鼠标将作为“dm_control/locomotion/”项目的一部分开源。项目地址:https://github.com/deepmind/dm_control/tree/master/dm_control/locomotion虚拟鼠标可以从头戴式摄像头(64×64像素)获得本体感受信息和“原始”第一人称RGB摄像头输入.本体感受信息包括:内部关节角度和角速度、提供驱动的肌腱的位置和速度、从小鼠骨盆到爪子、头部的第一人称向量、来自前庭的垂直方向向量、爪子中的触摸感应区域,以及第一人称加速度、速度和3D角速度。训练神经网络最近的研究表明,端到端的强化学习可以生成单一的地形自适应策略。基于此,研究人员在依赖电机控制的多个任务上训练了单一架构,如下图3所示。展示。图3:虚拟鼠标代理架构。为了训练一个可以执行所有四个任务的单一策略,研究人员使用IMPALA风格的actor-criticDeepRL设置,使用直立轨迹(V-trace)和离策略校正(off-policycorrection)来训练价值函数评估员。在实验中,研究人员发现学习“逃离丘陵环境”任务在与其他三个任务相关的交叉训练过程中更具挑战性。因此,研究人员展示了针对“逃跑”任务训练单任务专家以及使用弱系数(0.001或0.005)任务启动来训练多任务策略的结果。在逃生任务中使用启动允许小鼠更可靠地执行所有四个任务,并且允许更容易地比较不同架构的多任务处理策略。结果是一个单一的神经网络,它使用虚拟输入来确定鼠标的行为方式并协调鼠标的身体来完成任务。让老鼠完成四项任务研究人员利用经过训练的神经网络,引导老鼠进行四种动作:跳跃多个缺口、在迷宫中觅食、逃离丘陵环境、精准击球。通过多个间隙运行和跳跃。觅食行动:追逐蓝色球体。逃离山丘。用前爪准确击球。分析实验结果在小鼠成功完成任务后,研究人员结合虚拟小鼠的行为分析其神经网络活动,探究其如何完成多项任务(下图4A)。他们使用了神经科学的分析和扰动技术,该领域已经开发出一系列用于探索真实神经网络特性的技术。研究人员记录了虚拟小鼠核心层和策略层的运动学、关节、计算能力、感官输入和LSTM单元活动。图4:虚拟小鼠的行为记录。但哈佛研究生DiegoAldarondo是该论文的作者之一,他说他们发现了一些有趣的事情:当神经活动直接控制肌肉力量和腿部运动时,这些活动的发生时间比预期的要长。这意味着神经网络似乎能够使用抽象符号来表示多项任务,例如跑步、跳跃和旋转,这是一种先前在啮齿动物和鸣禽中观察到的认知模式。研究的意义尽管神经网络在生理上并不现实,但加拿大麦吉尔大学的神经科学家BlakeRichards表示,神经网络捕获了神经处理的足够重要特征,可以对神经活动如何影响行为做出有用的预测。他说,这篇论文的最大贡献是提出了一种近乎现实的方法来训练这些网络,使它们更容易与生物数据进行比较。他还说,作者正在提供一个平台来训练真实的有机体和一组任务,以便与真实的啮齿动物大脑进行比较更有意义。在研究方面,人工神经网络还不太适合与生物神经网络进行过于广泛的比较,但这种方法可能是探索行为神经基础的好方法。根据斯科特的说法,记录动物行为并将其与特定行为联系起来的复杂性决定了大多数实验都是在相对简单的任务和非常严格的环境中完成的。相比之下,虚拟鼠标可以实现非常复杂的多部分行为,例如觅食,这些行为可以高精度地与其感官输入和神经活动相关联。唯一的问题是我们很难从动物身上收集神经数据来完成如此复杂的任务。斯科特说,他希望研究人员能够让虚拟老鼠在实验室环境中执行更简单的任务,以便将它们的神经活动模式与真实动物的神经活动模式进行比较,看看它们有何不同。
