当前位置: 首页 > 科技观察

Science好文:强化学习后,如何突破机器人学习的瓶颈?

时间:2023-03-13 11:53:28 科技观察

本文转载自雷锋网。如需转载,请在雷锋网官网申请授权。在过去的十年中,机器学习确实取得了巨大的突破,在计算机视觉和语言处理方面产生了许多改变世界的重要应用。不过,这股“春风”并没有吹到智能机器人领域。针对机器人学习面临的瓶颈,MIT机器人专家LesliePackKaebling在《Science》发表了一篇题为《The foundation of efficient robot learning》的文章。她认为,造成这种现象的一个关键因素是,机器人学习的数据只能通过现实世界的操作来获取,这是非常昂贵的。为此,Leslie教授提出,要实现下一代机器人学习的技术革新,需要应用新的算法,从自然系统中获取灵感,灵活运用多种机器学习技术。1.强化学习真的那么聪明吗?尽管监督学习取得了许多重要成果,但在机器人学习领域,强化学习(RL)具有优势,因为机器人需要在人类世界中执行一系列不同的任务。在监督学习中,学习算法被赋予输入和期望输出的配对示例,并学习将输入与期望输出相关联。在强化学习中,智能体可以根据预先设定的奖励信号判断自己的表现优劣,进而选择合适的动作方式,这与机器人所处的复杂环境息息相关。简而言之,监督学习和强化学习的本质区别在于,在强化学习中,agent的行为对数据有重大影响,并且可以控制自己的学习探索,这对整体的成功至关重要。一开始,RL是一种通过奖励和惩罚机制学习动物行为的模型。之后,如果RL应用于现实世界的问题,那么RL必须扩展以处理巨大的输入和动作空间,并且即使在成功执行关键动作的奖励“迟到”时也能保持正常行为。这就是深度强化学习(DRL)方法出现的地方。DRL使用神经网络来解决上述现实世界的问题,并展示了惊人的性能,例如机器人下棋和围棋,3秒内用机械臂解开魔方。此外,RL还带来了许多实际应用,例如提高已安装计算机的能效。有了这些成功的机器人案例,人们自然会想象:在物理世界中,强化学习是否会完全取代机器人等行为复杂的系统所采用的传统工程方法?从技术角度来看,这种想象是荒谬的。我们可以想象一个专门帮助老人做家务的机器人:在“上岗”之前,机器人首先要具备大量的知识和能力,同时还要学习新知识,积累工作经验在上班。后一种学习必须是样本有效的(需要相对较少的训练示例)、可概括的(适用于临时学习之外)、组合的(能够与以前的知识相结合)和增量的(随着时间的推移添加新知识和能力的能力)。然而,现有的DRL方法均不具备上述特征。虽然他们可以学到很多惊人的新技能,但一般来说,他们不能将积累的经验很好地泛化到其他方面,而且在训练和执行过程中表现单一,比如既没有增长,也没有新知识和以前知识的结合经验。智能系统如何同时具备样本效率、泛化性、组合性和增量性?现代神经网络已被证明可有效处理插值问题。给定大量参数,神经网络能够牢记训练数据并对类似示例做出可靠的预测。我们可以以内置知识或结构的形式赋予学习算法“归纳偏差”,以获得泛化能力。例如,在具有感应偏差的自动驾驶系统中,系统的制动策略只需要参考指定距离内其他车辆的位置。系统的知识可以从相对较少的示例中收集到,因为能够很好地适合观察到的数据的替代解决方案有限。总的来说,归纳偏置可以提高样本效率和泛化能力。通过构建具有特定结构的归纳偏置模型可以获得组合性和增量性。在该模型中,通过学习获得的“知识”被分解为具有独立语义的因子。这些因素可以结合起来解决大量的新问题。2、如何巧妙地建立归纳偏差?基于先验知识或结构的意见不一定是“见解”。强化学习领域的先驱RichardSutton坚信,人类不应该将任何先验知识构建到学习系统中,因为纵观历史,这种做法常常是错误的。RichardSutton的文章引起了强烈反响,并指出了学习系统设计中的一个关键问题:学习系统中应该建立什么样的归纳偏差,这样系统才能从大量数据中学习到可泛化的知识,而不会因故障而失败到不正确或过度约束的数据?目前有两种设置适当偏差的方法。这两种方法是连贯的,但具有不同的时间范围和权衡,并且可以同时应用以找到学习代理所需的强大而灵活的先验结构。方法1:在“元”级别使用机器学习技术这种方法是指在系统设计阶段使用离线机器学习技术来发现可以提高代理在线学习效率的结构、算法和先验知识。至少从1980年代开始,元学习的基本概念就出现在机器学习和统计学中。基本思想是,在系统设计阶段,元学习过程可以访问系统在线学习时可能面临的许多潜在任务或环境的样本。元学习者的目的不是掌握单一环境的多种策略或所有环境的单一策略,而是掌握在线学习过程中面对新任务或新环境时尽可能高效学习的算法。这个目标可以通过在训练任务之间引入共性并使用这些共性形成强大的先验或归纳偏差来实现,这样在线学习代理只学习那些区分新任务和训练任务的方面。元学习可以很好地形式化为一种分层贝叶斯(概率)推理。在这种推理形式中,训练任务可以被视为提供在线学习任务将如何执行的证据,并且基于这些证据,可以利用在线学习获得的数据。然而,贝叶斯形式在计算上可能难以实现,因为它是对系统设计阶段遇到的大量任务进行推理,其中可能还包括在线学习的实际任务。方法2:将元学习明确描述为两个嵌套优化问题内部优化在线发生:代理试图从系统设计阶段生成的一组假设中找到在线学习数据中最好的“评分”假设。内部优化具有假设空间、评分标准和用于搜索最佳假设的计算机算法。在传统的机器学习中,这些成分由人类工程师提供。但在元学习中,至少有一部分是由在系统设计阶段执行的外部“元”优化过程提供的。元优化试图找到内部学习过程本身的参数。这些参数使学习能够在类似于元学习的新环境中进行(源自相同的分布)。最近的一项研究引入了一种新形式的元学习,称为模型不可知元学习(MAML)。MAML是一个嵌套优化框架,外部优化为内部神经网络权重选择一些初始值,这些初始值可以通过标准梯度下降优化方法进一步调整以进行在线学习。RL2算法在系统设计阶段使用DRL来学习一般的学习在线运行的小程序,但这些小程序并不一定具有机器学习程序的形式。另一种变体试图在系统设计阶段发现模块化构建块(例如小型神经网络),这些构建块可以组合起来解决在线学习中出现的问题。自然界中的进化过程可以被认为是元学习的一种极端形式。在自然进化中,大自然会为动物寻找一个极其不受限制的基础学习算法空间。(当然,agent的生理机能本质上也会发生变化。)在机器人的整个生命周期内,内部优化问题处理得越灵活,就需要越多的资源来提高鲁棒性,包括系统设计阶段的示例环境,在线学习表现不佳的机器人,以及在两个阶段运行的计算能力。至此,我们又回到了最初的问题:不会采用标准的强化学习方法,因为它虽然是一种通用的学习方法,但需要大量的在线学习经验。然而,元强化学习(meta-RL)需要丰富的系统设计经验,这会使开发过程枯燥、缓慢且昂贵。所以也许元学习也不是一个好的解决方案。那么解决方案是什么?有很多方向可以探索,包括教人类、与其他机器人协作学习,以及改变机器人的硬件和软件。在所有这些情况下,关键的一步是设计有效的方法来开发机器人软件。通过应用从计算机科学和工程中获得的见解,以及从认知神经科学中获得的灵感,我们可以找到可以构建到学习代理中的算法和结构,并在系统设计阶段和在线为学习算法和结构提供杠杆。卷积神经网络的发展就是上述方法的典型例子。卷积神经网络的思想是设计一个用于图像处理的神经网络,使其执行“卷积”,即在整个图像上使用相同的计算模式对图像块进行局部处理。这种设计还编码了先验知识。在这里,先验知识指的是物体无论在图像中的哪个位置都具有基本相同的外观(平移不变性),并且靠近在一起的像素组共享有关图像内容的信息(空间局部性)。以这种方式训练神经网络意味着需要更少数量的参数,因此与没有卷积结构的情况相比,训练会话的数量相应减少。受工程师和大自然的启发,图像卷积的想法是早期信号处理和计算机视觉中的一个基本概念。长期以来,人们一直认为哺乳动物视觉皮层中的细胞似乎执行类似的计算。3.总结由此可见,发现更基本的结构或算法约束(例如卷积)是非常重要的一步,它可以为机器人学习提供实质性的杠杆作用,同时又不会阻止机器人执行一般智能行为。雷锋网现在也有一些很好的解决方案,例如:1、使用具有动作效果的“心智模型”进行某种形式的前向搜索,类似于计划或推理;2、从单一对象学习表达,但可以广泛应用的知识,例如,对于所有的A和B,如果A在B之上,当移动B时,A也可能移动;第三,三维空间推理,包括在三维空间中的规划和执行动作的组织原则,以及以三维空间为存储空间。此外,我们可能需要更多可行的原则,还有许多其他问题需要解决,包括如何开发既能在系统设计阶段又能在线训练的基础设施,以及帮助人类指定奖励和维护安全的方法。.综合考虑工程原理、生物灵感、系统设计阶段的学习、最后的在线学习,人类终于有可能创造出类人智能机器人。