借助谷歌的新算法,机器人平均只需3.5小时即可学会独立行走。图为云宝黛茜在镂空的擦鞋垫上移动。保持机器人平稳站立和移动一直是机器人领域的一个棘手挑战,因为它需要高水平的专业知识和设计。虽然一些传统机器人可以在人的控制下站立和移动,但它们的运动范围也充满了局限性。为了解决这个问题,谷歌最近与佐治亚理工学院和加州大学伯克利分校的研究人员联合发表了一篇论文,详细介绍了他们如何成功打造出一个自学通过AI行走的机器人。他们给这个四足小机器人起了一个可爱的代号“彩虹小跑”。根据世界纪录,婴儿从爬行到走路最快的学习时间是6个月,而根据论文中的测试数据,云宝黛茜学会前进、后退、左右左右只需要3.5小时左右平均转弯——机器人需要1.5小时才能学会在坚硬平坦的表面上行走,在记忆海绵床垫上大约需要5.5小时,在穿孔地毯上大约需要4.5小时。具体来说,机器人使用深度强化学习,结合了两种不同类型的人工智能技术,即深度学习和强化学习。通过深度学习,系统可以处理和评估来自其环境的原始输入数据;通过强化学习,算法通过反复试验学习如何执行任务,并根据完成情况获得奖励和惩罚。也就是说,通过上述方法,机器人可以在其未知环境中实现自动控制策略。在以往的此类实验中,研究人员最初是让机器人通过模拟来学习真实世界的环境。在仿真环境中,机器人的虚拟身体首先与虚拟环境进行交互,然后算法接收虚拟数据,直到系统具备“处理”数据的能力,具有系统物理形态的机器人才会置于现实环境中进行实验。这种方法有助于避免在试错过程中损坏机器人及其周围环境。然而,环境虽然易于建模,但往往非常耗时且充满意外情况,因此在模拟环境中训练机器人的价值有限。毕竟,此类研究的最终目标恰恰是为现实世界场景准备机器人。谷歌、佐治亚理工学院和加州大学伯克利分校的研究人员并不“守旧”。在他们的实验中,RainbowDash从一开始就在真实环境中接受训练,因此机器人不仅能很好地适应自己的环境,还能更好地适应类似的环境。虽然RainbowDash可以独立移动,但这并不意味着研究人员可以“不管它”。在刚开始学习在环境中行走时,研究人员仍然需要用RainbowDash手动干预数百次。为了解决这个问题,研究人员限制了机器人移动的环境,让它可以同时训练多个动作。RainbowDash自学走路后,研究人员可以连接控制手柄,控制机器人达到理想的运动轨迹,在设定的环境中控制机器人。此外,机器人在识别环境边界后,会自动往回走。在某些环境之外,机器人可能会反复跌落并损坏机器,此时需要另一种硬编码算法来帮助机器人起身。谷歌这项研究的负责人JanTan告诉该刊物,这项研究花了大约一年的时间才完成。“我们有兴趣让机器人能够在各种复杂的现实环境中移动,”他说。然而,很难设计出能够灵活处理多样性和复杂性的运动控制器。雷锋网了解到,接下来,研究人员希望他们的算法可以应用于不同类型的机器人,或者让多个机器人在同一环境下同时学习。研究人员认为,破译机器人的运动能力将是解锁更多实用机器人的关键——人类用腿走路,如果机器人不使用腿,它们将无法在人类世界中航行。然而,让机器人在人类世界中行走是一个至关重要的课题,它们可以代替人类去探索地球上不同的地形或人类未曾探索过的区域,比如太空。但由于机器人依靠安装在其上方的动作捕捉系统来确定其位置,因此该设备目前还不能直接用于现实世界。
