当前位置: 首页 > 科技观察

四分钟对战300余次,谷歌教机器人打乒乓球

时间:2023-03-14 23:40:24 科技观察

让一个乒乓球爱好者和机器人对战,按照机器人的发展趋势,谁胜谁负还真是不确定。该机器人具有灵巧的机动性、灵活的腿部动作、出色的抓取能力……被广泛应用于各种具有挑战性的任务中。但是,机器人在涉及与人类密切互动的任务中的表现如何?以乒乓球为例,它需要双方的高度配合,而且球的运动速度非常快,这对算法提出了重大挑战。在乒乓球运动中,速度和精度是至高无上的,这对学习算法提出了很高的要求。同时,这项运动高度结构化(具有固定的、可预测的环境)和多智能体合作(机器人可以与人类或其他机器人战斗),使其成为研究人机交互和强化学习的理想选择。一个理想的问题实验平台。来自谷歌的机器人研究团队已经建立了这样一个平台来研究机器人在多人、动态和交互环境中学习所面临的问题。谷歌也为此专门写了一篇博客,介绍他们一直在研究的两个项目Iterative-Sim2Real(i-S2R)和GoalsEye。i-S2R使机器人能够与人类玩家进行300多次正面交锋,而GoalsEye使机器人能够从业余爱好者那里学习一些有用的策略(目标条件策略)。i-S2R策略允许机器人与人类作战。虽然机器人的球拍握把看起来不专业,但它不会错过一个球:你来来去去,有点像,而且是高质量的击球。球的感觉。GoalsEye策略可以将球返回到桌面上的指定位置,类似于击球位置:i-S2R:使用模拟器与人类合作玩游戏在这个项目中,机器人旨在学习与人类合作,也就是尽可能长的时间和人类切磋。由于直接针对人类玩家进行训练既乏味又耗时,因此谷歌采用了基于模拟的方法。然而,这又面临一个新的问题。基于模拟的方法很难准确模拟人类行为、闭环交互任务等。在i-S2R中,谷歌提出了一种可以在人机交互任务中学习人类行为的模型,并在机器人乒乓球上进行了实例化平台。谷歌已经建立了一个系统,可以与业余人类玩家进行多达340次的对打(如下所示)。人与机器人对战4分钟,最多学习人类行为模型340次让机器人准确学习人类行为还有以下问题:如果一开始没有足够好的机器人策略,就不可能收集到关于人类行为的信息人类如何与机器人交互高质量数据。但是如果没有人的行为模型,机器人的策略是无法从一开始就得到的。这个问题有点绕,就像先有鸡还是先有蛋的问题一样。一种方法是直接在现实世界中训练机器人策略,但这通常速度慢、成本高,并且会产生与安全相关的挑战,当人类参与时这些挑战会进一步加剧。如下图所示,i-S2R以一个简单的人类行为模型作为近似起点,在模拟训练和真实世界部署之间交替。在每次迭代中,都会调整人类行为模型和策略。i-S2R方法谷歌将实验结果按玩家类型细分:初学者(40%的玩家)、中级(40%的玩家)和高级(20%的玩家)。根据实验结果,对于初学者和中级玩家(占玩家的80%),i-S2R的性能明显优于S2R+FT(sim-to-realplusfine-tuning)。按玩家类型划分的i-S2R结果GoalsEye:精确命中目标位置在GoalsEye中,谷歌还展示了一种结合行为克隆技术来学习精确目标策略的方法。在这里,谷歌专注于乒乓球的准确性。他们希望机器人能够准确地将球送回球台上的任意指定位置,如下图所示。为了达到以下效果,他们还采用了LFP(LearningfromPlay)、GCSL(Goal-ConditionedSupervisedLearning)。GoalsEye策略的目标是直径为20厘米的圆(左)。人类玩家可以瞄准同一个目标(右)在前2480次演示中,谷歌的训练策略只有9%的时间准确击中半径为30厘米的圆形目标。经过大约13,500次演示,球击中目标的准确率上升到43%(右下)。关于这两个项目的更多信息,请参考以下链接:Iterative-Sim2Real主页:https://sites.google.com/view/is2rGoalsEye主页:https://sites.google.com/view/goals-眼睛