当前位置: 首页 > 科技赋能

专栏 -机器人运动控制强化学习六字真言

时间:2024-05-22 16:18:24 科技赋能

文章|英特尔中国研究院实现机器人自主运动,更好地为人类提供服务,一直是我们的梦想。

但如何实现机器人的自主运动呢?由于深度学习部分解决了机器人的视听识别问题,强化学习技术有望成为突破机器人自主运动问题的利剑。

强化学习实际上是生活中广泛使用的一种技术“试错法”的理论抽象,即为了达到理想的目标而不断实验,并在实际尝试中修正计划,从而逐步提高成功率。

例如,在围棋程序中,棋盘情况称为“状态”,走法的选择称为“行为”;根据状态选择行为的方法称为“策略”,根据当前状态和行为预测输赢称为“价值”,当前步骤的输赢结果称为“奖励” 。

强化学习是修改策略以实现价值最大化的过程。

在今年全球十大突破性技术榜单中,强化学习技术位居榜首,并在国际象棋运动和计算机游戏领域取得了突破性进展。

例如,AlphaGo利用强化学习技术击败了前围棋世界冠军李世石。

增强学习能力的计算机程序在一系列雅达利游戏等方面的表现超越了人类。

那么,对于机器人的运动控制问题,应用强化学习技术有哪些难点呢?我们可以采取哪些有效的解决方案?今天我们给大家奉上六字真言:高、大、小;空,第一,近。

三大难点 与国际象棋运动和电脑游戏不同,在机器人运动控制领域使用强化学习方法主要面临三个难点: “高”,即状态和行为维度较高。

例如,如果我们想让机器人给我们端一杯水,我们需要强化学习算法来提供以下最优运动控制策略:使用具有深度、鱼眼和普通图像拍摄功能的RealSenseTM相机获取图像,并分析方向、距离以及人与杯子之间的距离。

姿势和人的表情,并通过听觉获得人命令的方向和紧急程度,从而控制机器人(机械腿或底盘)行走在人的前面;利用机器人手获取重量、温度和滑动信息,并根据人手的方向控制机器人手臂和手指各关节的实时角度。

这个过程涉及数百万个维度的状态和行为,计算每个状态行为的价值(例如人类满意度)也非常困难。

“大”是指状态信息误差大。

国际象棋运动中的状态(棋盘)信息是完全准确的,但机器人面临的状态信息大多存在显着误差。

例如,在递水的场景中,我们获取的人与杯子的方向、距离、姿势信息,以及人的表情和动作信息都存在误差。

误差可能是由机械振动或机器人运动等因素引起的,也可能是由于传感器精度不足、存在噪声或算法精度不足造成的。

这些错误增加了强化学习的难度。

“小”是指样本量小。

与人脸等图像识别任务中数以百万计的训练样本不同,机器人强化学习可用的样本数量较少,成本较高。

主要原因是机器人在运动过程中可能会出现疲劳损伤,也可能对目标物体造成损伤。

或环境造成损害;机器人在运动过程中参数会发生变化;机器人的运动需要一定的时间;很多机器人学习任务都需要人类的参与和配合(例如上面的送水场景中需要有人接水)。

这些都使得获取大量的训练样本变得非常困难。

三解决 面对以上困难,我们无能为力吗?当然不是。

科学家们提出了一套解决问题的思路,主要包括以下三点:(一种融合“虚、先、近”三种策略的机器人运动控制增强学习框架)“虚”,即使用虚拟和现实技术相结合。

我们可以用程序创建一个虚拟环境,让机器人进行预训练,以克服实际采样过程中可能出现的各种困难。

虚拟软件不仅可以模拟机器人完整的运动特性,例如它有多少个关节,每个关节如何运动等,还可以模拟机器人与环境相互作用的物理模型,例如重力、压力、摩擦力等。

机器人可以先在虚拟环境中进行强化学习训练,直到训练基本成功后再在实际环境中进一步学习。

虚拟与真实场景相结合的强化学习主要面临两个挑战。

一是如何保证虚拟环境中的学习结果在现实中仍然有效。

面对这个问题,我们可以对虚拟环境和实际环境的差异进行随机建模,并在虚拟环境中训练时引入一些噪声。

另一个挑战是如何实时获取外部环境和目标的虚拟模型。

最新的深度相机可以帮助我们解决这个问题。

“先”是先验知识。

引入先验知识可以大大降低强化学习优化的难度。

先验知识的种类有很多种,但对于机器人来说,更有效的获取先验知识的方式是“学徒学习”,即让机器人模仿人类的教学动作,然后在应用中通过强化学习来优化。

由于机器人运动面临的状态维数极高,人工输入知识非常困难。

不过,它更方便人们演示。

也降低了引入先验知识的门槛,对机器人了解不多的人也能做到。

教学方式主要有三种:一是拖动机器人手做动作;二是拖动机器人手做动作;另一种是利用特殊的动作捕捉设备来获取人体动作;三是直接利用深度相机获取人体动作。

从长远来看,第三种方法将成为未来的发展趋势。

“接近”是近似的意思。

由于机器人运动控制的状态维数高、样本少、存在误差,将高维状态近似成不丢失主要信息、能增加可训练性的函数就成为重要的选择。

利用近似方法提高强化学习算法性能的一个热门话题是深度学习技术与强化学习相结合形成的深度强化学习技术。

该技术通过高层卷积直接传递机器人的状态(如传感器和关节状态输入)。

将神经网络映射到机器人的动作输出,极大地提高了基于强化学习的机器人运动控制性能。

这项技术近两年取得了突破性进展。

上述解决方案开启了强化学习在机器人运动控制领域的应用大门,并成为机器人研究的重要方向之一。

但仍有许多实际问题需要解决。

英特尔中国研究院正在深度强化学习、学徒学习(模仿学习)、虚实学习等方面进行一系列探索,敬请期待。