智能体的深度进化是人工智能领域的重大研究课题,同时也有非具身智能和具身智能。目前,人工智能领域更多地关注非具身认知,创造具身代理非常具有挑战性。近日,斯坦福大学李飞飞等学者提出了一种新的计算框架——深度进化强化学习(DERL),基于该框架创建的具身代理可以在多种复杂环境中执行多项任务。此外,该研究首次通过形态学学习证明了进化生物学中的鲍德温效应。6亿年来,进化带来了不同类型的“无尽形态最美”,从古老的双侧对称昆虫到各种动物形态。这些动物还表现出非凡的具身智能,使用进化的形式来学习复杂的任务。具身认知领域认为,智能体可以快速学习这种智能行为,并且它们的形式很好地适应了环境。然而,人工智能领域更侧重于“非具身认知”,例如语言、视觉或游戏。当类人代理具有很好地适应环境的形态时,它们可以在各种复杂环境中学习控制任务,但是由于以下几个原因,创建这样的代理具有挑战性:搜索;通过终身学习评估代理适应度需要大量计算时间。因此,以往的研究要么在极其有限的形态学搜索空间中进化代理,要么在给定固定的人工设计形态学的情况下找到最佳参数。评估适应性的困难导致之前的研究避免直接基于原始感官观察来学习自适应控制器;使用少量参数(≤100)学习人工设计的控制器;学习预测模态的适用性;模仿拉马克进化论(Lamarckian),而不是达尔文进化论,直接将学到的信息跨代传递。此外,之前的研究主要局限于在平坦地面上移动的简单任务、自由度(DoF)较少的代理或由立方体组成的物理配置,进一步简化了学习控制器的问题。如何克服这些限制?最近,来自斯坦福大学的研究人员AgrimGupta、SilvioSavarese、SuryaGanguli和Fei-FeiLi提出了一种新的计算框架——深度进化强化学习(DERL),它可以从环境、形状和控制中学习。在三个复杂性维度下同时和大规模创建具身代理。DERL框架如下图1所示。DERL打开了在计算机模拟中创建大规模实体代理的大门,这有助于深入了解学习和进化如何合作构建环境复杂性、形态智能和控制任务的可学习性。科学洞察之间的复杂关系此外,DERL还缓解了强化学习的样本低效性,创建具身代理不仅可以使用更少的数据,还可以泛化以解决各种新任务。DERL通过模仿达尔文进化论中错综复杂的代际进化过程来搜索形状空间,并通过终身神经学习的智能控制来评估给定形状的速度和质量以解决复杂任务。斯坦福大学教授、论文作者之一李飞飞表示:“这项研究不仅提出了一种新的计算框架——深度进化强化学习(DERL),而且首次证明了达尔文-鲍德温效应通过形态学学习。形态学学习是自然界中动物进化必不可少的技能,现在我们创造的人工智能代理中体现出来了。”论文地址:https://arxiv.org/pdf/2102.02202.pdf具身智能可以执行哪些任务?本研究中创建的具身代理可以在三种环境中执行巡逻和点导航:平地(FT)、可变地形(VT)和可变地形(MVT)中的非抓取操作。、避障、探索、逃生、倾斜、推箱倾斜、操纵球。以下三个动画是具体代理的行为,用于避开障碍物(上)、在斜坡上推箱子(中)和控制球(下)。回避。坡道推箱子。控球权。DERL:AComputationalFrameworkforCreatingEmbodiedAgentsForlearning,每个代理人通过只接收低水平的自本体感受和外感受观察来感知世界,并选择它的动作(上面的1b),深度神经网络的参数是通过近端学习的政策优化(PPO)。总的来说,DERL允许研究人员在1152个CPU上进行大规模实验,平均涉及10代进化,搜索和训练4000种形态,每个模态有500万次代理-环境交互(即学习迭代)。该研究能够在并行异步游戏中训练288种形态,因此在任何给定时刻,整个学习和进化过程都可以在16小时内完成。据我们所知,这是迄今为止最大的形态进化和RL同时模拟。UNIMAL:UNIVERSALaniMALMORPHOLOGICALDESIGNSPACE为了克服以往形态学搜索空间表达能力的局限性,本研究引入了一个UNIversalaniMAL(UNIMAL)设计空间(上图1e)。该研究的基因型是一个运动学树,对应于由电机驱动的铰链连接的3D刚性部件的层次结构。运动树的节点由两种组件类型组成:代表代理头部的球体(构成树的根)和代表四肢的圆柱体。进化通过三类突变算子进行无性繁殖:1)通过生长或删除肢体来缩小或生长运动树(上图1d);2)改变现有肢体的物理特性,例如长度和密度(上图1d)。;3)修改四肢间关节的属性,包括自由度、旋转角度限制、齿轮比等。最重要的是,这项研究只允许保持双侧对称性的成对变异,这是进化中动物身体结构最古老的特征(起源于6亿年前)。一个关键的物理结果是每个代理的质心都位于矢状面上,从而降低了学习左右平衡所需的控制程度。尽管存在这一限制,但本研究中提出的形态设计空间极具表现力,包含大约1018种独特的代理形态,至少有10个肢体。Agent“变形”:在复杂环境中进化出不同的形态根据研究,DERL首次使agent超越平地移动,同时在3种环境中进化出多种agent形态和学习控制器,以及3种难度这两种环境逐渐增加:平地(FT),可变地形(VT)和可变地形中的非抓地机动(MVT)。DERL能够为这3种环境找到成功的形态学解决方案。首先,agent在FT环境中移动;第二,智能体在地形不平坦的VT环境中移动;最后,agent在MVT环境中移动和推箱子:研究人员分析了这三种环境中不同形态描述符的变化(见下图3),发现环境对形态进化有很大影响。当所有环境中进化的agents具有相似的质量和控制复杂度时,VT/MVTagent比FTagent在前向移动时间更长,在高度方向移动时间更短,而FTagent占用的空间比VT/MVT小。FT代理的小足迹特性反映了将四肢安装在身体上的常见策略,以允许全方位运动(参见下面的图2i、7a、8a)。FT代理表现出前倾运动步态和蜥蜴式运动(下图2i),VT代理更类似于FT,但它有一个额外的机制使步态更稳定。最后,MVT代理开发了一个类似于钳子或爪子的前伸臂,用于将盒子推到目标位置的任务。EnvironmentalComplexityDerivedMorphologicalIntelligence之前关于环境对形态进化的影响的分析主要集中在不同的形态描述符或形态复杂性上,但关键的挑战是设计一个代理以确保它能够快速适应任何新任务。相反,研究人员转而以某种形式描述具身智能,以了解这种能力是如何通过组合学习和进化获得的。具体来说,我们计算模态的便利性以学习大量测试任务。这种方法类似于通过迁移学习计算它们在下游任务上的性能来评估潜在神经表征的质量。研究人员创建了一组8个任务(下图4a),可分为3个区域来测试agent形式的敏捷性(巡逻、点导航、避障和探索)、稳定性(逃生和攀爬)和操纵性能力(坡度推箱子和控球)。每个任务的控制器都是从头开始学习的,确保性能差异来自形态差异。研究人员首先检验了这样一个假设,即在更复杂的环境中进化会导致更智能的形式在测试任务中表现更好(参见上图4b)。结果表明,在MVT环境中进化的agent在7个测试任务中优于在FT中进化的agent;在涉及敏捷性和稳定性的6项任务中,VT智能体在5项中的表现优于FT中进化的智能体。优于FT代理并在操作任务中执行类似。为了测试学习速度,研究人员用1/5的学习迭代重复了相同的实验(见上图4c),发现MVT/VT智能体和FT智能体在所有任务中的差异都更大。这些结果表明,在更复杂的环境中进化的形态确实更智能,因为它们有助于代理更好更快地学习多个新任务。展示更强形式的形态学鲍德温效应一个多世纪前,美国心理学家鲍德温推测存在一种替代机制,通过这种机制,最初在早期进化中终生学习的行为逐渐被后代(后代)采用成为本能,甚至可以通过基因传递。从表面上看,这种鲍德温效应看起来像是拉马克式的继承,但它严格来说是达尔文主义的起源。然而,生物学家长期以来一直认为鲍德温效应可能会在复杂环境中的形态进化和感觉运动学习水平上持续存在。因此,尽管有广泛的猜测,但到目前为止,还没有研究证明Baldwin效应在体内或计算机形态进化中的作用。在模拟中,研究人员发现了形态学中Baldwin效应的第一个证据,反映了在三种环境中达到前100名智能体标准健身水平所需的训练时间迅速减少,如下图5A所示。值得注意的是,平均训练时间在短短10个时期内就减少了一半。研究人员提供了一个如何加速学习的例子,如下图5d所示,他们展示了不同世代在FT中进化的agent的学习曲线:在学习结束时,第8代的agent优于第5代的agent2的两倍。1代智能体,可以用后者1/5的时间达到相同的最终适应度。研究人员还指出,他们在模拟中没有遇到任何明确的快速学习选择压力,因为形态学的适应性仅由其在学习结束时的表现决定。即便如此,进化仍然会选择更快的学习者,并且没有选择压力。因此,通过证明鲍德温效应不需要对技能获得率施加明确的选择压力,研究人员实际上发现了一种比文献中先前假设的更强的鲍德温效应形式。有趣的是,在未来的研究中可以进一步探索形态学Baldwin效应的存在,以创建具有较低样本复杂性和较高泛化能力的具身代理。形态智能的机制基础和强Baldwin效应接下来,该研究将探索进化如何产生形态智能(上图4b、c)的潜在机制,以及如何在不对学习速度Base产生任何直接选择压力的情况下选择速度更快的学习者。该研究假设,正如在具身认知中所推测的那样,进化发现的形态可以更有效地利用代理人与环境之间物理交互的被动动力学,从而简化学习控制的问题,从而使双方在小说中更好地学习环境(形态智能)和跨代更快的学习(鲍德温效应)。任何此类智能形态都可能表现出能量效率和被动稳定性的物理特性,因此本研究调查了这两个特性。研究人员将能效定义为为实现目标而消耗的每单位质量的能量(参见附录D)。令人惊讶的是,在没有直接的能源效率选择压力的情况下,进化选择了节能形态解决方案(上图5c)。研究证实,仅通过降低肢体密度并不能实现能源效率(上图3e)。相比之下,所有三种环境的总质量实际上都增加了,这表明能量效率是通过选择更有效地利用身体与环境相互作用的被动物理动力学的形态来实现的。此外,在任何固定的世代,更节能的形态表现更好(下图6a)并且学习更快(下图6b)。同样,在所有三种环境中,随着时间的推移,进化选择了更被动稳定的形式(见附录D),尽管VT/MVT中稳定形式的比例相对于FT更高,这表明在这些环境中,稳定性的相对选择压力是在更复杂的环境中更高(上图5b)。因此,能量效率(上图5c)和稳定性(上图5b)都会随着时间的推移而提高,这种方式与学习速度密切相关(上图5A)。
