当前位置: 首页 > 科技观察

交大校友荣获最佳论文,CoRL2022奖项揭晓

时间:2023-03-13 05:41:53 科技观察

自2017年首次举办以来,CoRL已成为机器人与机器学习交叉领域的全球顶级学术会议之一。CoRL是机器人学习研究的单轨会议,涵盖机器人、机器学习和控制的多个主题,包括理论和应用。2022CoRL会议将于12月14日至18日在新西兰奥克兰举行。本次会议共收到投稿504篇,最终录用34篇Oral论文和163篇Poster论文,录用率为39%。目前,CoRL2022已经公布了最佳论文奖、最佳系统论文奖、特别创新奖等所有奖项。美国宾夕法尼亚大学GRASP实验室硕士、上海交通大学校友黄坤获得大会最佳论文奖。最佳论文奖本次会议的最佳论文奖是来自宾夕法尼亚大学的一项研究。论文标题:TrainingRobotstoEvaluateRobots:Example-BasedInteractiveRewardFunctionsforPolicyLearning作者:KunHuang,EdwardHu,DineshJayaraman论文链接:https://openreview.net/pdf?id=sK2aWU7X9b8论文摘要:通常来物理交互可以帮助揭示不太明显的信息,例如我们可能会拉动桌腿以评估其稳定性,或者将水瓶倒置以检查是否泄漏,该研究表明可以通过训练机器人自动学习。这种交互用于评估机器人尝试执行某项技能的结果。这些评估反过来用作IRF(交互式奖励函数),用于训练强化学习策略以执行目标技能,例如收紧桌腿。此外,IRF可以作为一种验证机制来改进在线任务执行,即使在完整培训完成后也是如此。对于任何给定的任务,IRF训练都非常方便,不需要进一步规范。评估结果表明,IRF可以实现显着的性能改进,甚至可以通过访问演示或精心设计的奖励来超越基线。例如下图中,机器人必须先关上门,然后旋转对称的门把手,才能将门完全锁上。门锁(doorlocking)评估实例演示下面实验的目的是将3个视觉上相同的积木堆叠起来形成一个稳定的塔。其中一个小块明显比其他两个块重,所以最好的策略是将它放在底部。堆栈评估示例演示为了检查算法的稳健性和通用性,本研究使用具有9个关节的D'Claw在真实的机器人拧紧实验中对其进行了测试。此任务的目的是将四通阀顺时针旋转约180°进入拧紧状态(阀座上的白线)。作者介绍本次获得CoRL2022最佳论文奖的作者共有三位,分别是黄坤、EdwardHu和DineshJayaraman。DineshJayaraman是宾夕法尼亚大学GRASP实验室的助理教授。他领导着感知、行动和学习(PAL)研究小组,该小组致力于研究计算机视觉、机器学习和机器人技术交叉领域的问题。黄坤是宾夕法尼亚大学GRASP实验室的硕士,在DineshJayaraman教授的指导下研究强化学习。他拥有密歇根大学计算机科学学士学位,在那里他与DmitryBerenson教授一起研究机器人感知。黄坤毕业于上海交通大学,获学士学位。他的研究兴趣包括机器人技术和现实世界的应用。黄琨硕士期间曾在Waymo实习,毕业后将加入Cruise担任机器学习工程师。LinkedIn主页:https://www.linkedin.com/in/kun-huang-620034171/EdwardS.Hu是宾夕法尼亚大学GRASP实验室的博士生,师从DineshJayaraman教授。他的主要研究兴趣包括基于模型的强化学习等。Edward在南加州大学获得计算机科学硕士和学士学位,在那里他与JosephJ.Lim教授一起研究机器人的强化和模仿学习。最佳论文入围本次会议有3篇论文入围最佳论文奖。除最终获奖论文外,其他2篇论文分别为:论文题目:LearningAgileSkillsviaAdversarialImitationofRoughPartialDemonstrations作者:李晨浩。Yarats,LerrelPinto论文链接:https://arxiv.org/pdf/2206.15469.pdf最佳系统论文奖本次会议最佳系统论文奖的获得者是CMU和加州大学伯克利分校的一项研究。论文标题:LeggedLocomotioninChallengingTerrainsusingEgocentricVision作者:AnanyeAgarwal、AshishKumar、JitendraMalik、DeepakPathak论文链接:https://arxiv.org/pdf/2211.07638.pdf论文摘要:动物可以利用视觉实现精确敏捷的运动以及复制这种能力一直是机器人技术的长期目标。传统方法是将此问题分解为高程映射和立足点规划阶段。然而,高程映射容易受到故障和大面积噪声的影响,需要专门的硬件并且在生物学上不可行。在本文中,研究人员展示了第一个能够穿越楼梯、路缘石、垫脚石和空隙的端到端运动系统,并使用单个正面深度相机在中等大小的四足机器人上展示了结果。.由于机器人体积小,需要发现其他地方没有的特殊步态模式。相机需要掌握记忆过去信息的策略,以便估计其背后的地形。研究人员在模拟环境中训练了机器人的策略。训练分两个阶段进行:首先使用强化学习以低计算成本为深度图像变体训练策略,然后使用监督学习将其细化为深度最终策略。由此产生的策略可以转移到现实世界,并且可以在机器人有限的计算能力上实时运行。它可以穿越大量地形,同时对光滑表面和岩石地形等干扰具有鲁棒性。垫脚石和间隙机器人能够跨过各种配置的吧台凳,并调整步长以跨越大间隙。由于后脚附近没有摄像头,机器人必须记住吧台凳的位置并相应地放置后脚。楼梯和路缘机器人能够爬上24厘米高和30厘米宽的楼梯。策略适用于各种照明条件下的不同楼梯和路缘。在间距不均匀的楼梯上,机器人最初会被卡住,但最终能够使用攀爬行为来越过这些障碍物。非结构化地形机器人可以穿越不属于其训练类别之一的非结构化地形,显示了系统的泛化能力。黑暗中的移动深度相机使用红外光投射图案,即使在环境光很少的情况下也能准确估计深度。稳健策略对大的力(从高处掉落5公斤的重物)和湿滑的表面(水倒在塑料布上)具有稳健性。关于作者这项研究有四位作者。JitendraMalik目前是加州大学伯克利分校电气工程与计算机科学系的ArthurJ.Chick教授。他的研究领域包括计算机视觉、人类视觉的计算建模、计算机图形学和生物图像分析。获奖研究的作者之一AshishKumar是他的博士生。DeepakPathak目前是卡内基梅隆大学的助理教授,他获得了博士学位。来自加州大学伯克利分校,主题包括机器学习、机器人和计算机视觉。获奖研究的作者之一AnanyeAgarwal是他的博士生。此外,DeepakPathak的一项研究入围了本次会议的最佳系统论文奖。论文题目:DeepWhole-BodyControl:LearningaUnifiedPolicyforManipulationandLocomotion作者:ZipengFu,XuxinCheng,DeepakPathak论文链接:https://arxiv.org/abs/2210.10044特别创新奖本次会议还入选了Receiveda特别创新奖,这项研究是由谷歌的几位研究人员共同完成的。论文标题:DoAsICan,NotAsISay:GroundingLanguageinRoboticAffordances作者:BrianIchter、AnthonyBrohan、MichaelAhn等论文链接:https://arxiv.org/pdf/2204.01691.pdf论文摘要:大型语言模型可以编码大量关于世界的语义知识,这些知识对机器人非常有用。然而,语言模型缺乏现实世界的经验,这使得难以利用语义来对给定任务进行决策。谷歌的研究人员建议通过预训练技能为大型语言模型提供真实世界的基础,这些技能用于约束模型以提出既可行又适合上下文的自然语言操作。机器人可以充当语??言模型的“手和眼”,提供有关任务的高级语义知识。该研究展示了低级技能如何与大型语言模型相结合,以便语言模型提供有关执行复杂和时间延长指令的过程的高级知识,而与这些技能相关的价值函数提供了连接的方法将这些知识应用到特定的物理环境中。所需的基础。研究人员将大型语言模型(LLM)与机器人的物理任务相结合,其原理是除了让LLM简单地解释指令外,它还可以用于评估单个动作如何对整个高级指令做出贡献。可能性。简单来说,每个动作都可以有语言描述,我们可以使用提示语言模型让它对这些动作打分。此外,如果每个动作都有相应的可供性函数,则可以从当前状态(例如学习值函数)量化其成功的可能性。两个概率值的乘积就是机器人能够成功完成对指令有帮助的动作的概率。按照这个概率对一系列动作进行排序,选择概率最大的一个。下图显示了机器人帮助拿着苹果的示例: