当前位置: 首页 > 科技观察

李飞飞对“具身智能”的关注点在哪里?

时间:2023-03-17 17:44:07 科技观察

2009年,当时就职于普林斯顿大学的计算机科学家李飞飞牵头构建了一个改变人工智能历史的数据集——ImageNet。它包含数以百万计的标记图像,可用于训练复杂的机器学习模型以识别图像中的对象。2015年,机器的识别能力超越了人类。李飞飞也很快转向了新的目标,寻找她所说的另一颗“北极星”(这里的“北极星”是指研究人员着力解决的关键科学问题,可以激发他们的科研热情。和突破性进展)。她通过回到5.3亿年前的寒武纪生命大爆发来寻找灵感,当时许多陆地动物首次出现。一个有影响力的理论认为,新物种的爆发在一定程度上是由眼睛的出现推动的,眼睛让生物第一次看到周围的世界。李飞飞认为,动物的视觉不是孤立产生的,而是“深深植根于一个整体,需要在瞬息万变的环境中移动、导航、生存、操纵和改变,”她说,“所以我是一个自然会转向更活跃的AI领域。”如今,李飞飞的工作重点是人工智能代理,它们不仅可以从数据集中接收静态图像,还可以四处移动并与周围环境互动。这是一个名为“具身人工智能”的新领域的广泛目标。它与机器人技术有些重叠,因为机器人可以被视为现实世界中体现的AI代理和强化学习的物理等价物。李飞飞和其他人认为,具身人工智能可以让我们从简单的机器学习能力(如识别图像)转变为学习如何分多个步骤执行复杂的类人任务(如制作煎蛋卷)。今天,具身人工智能的工作包括任何可以检测和改变自身环境的代理。在机器人技术中,AI代理总是生活在机器人体内,而真实模拟中的代理可能拥有虚拟身体,或者可能通过移动的相机位置感知世界,并能够与周围环境互动。“具身的意义不是身体本身,而是与环境互动、在环境中做事的整体需求和功能,”李飞飞解释道。这种交互性为代理提供了一种新的——在许多情况下更好的——了解世界的方式。这就相当于,之前你只是观察两个对象之间可能存在的关系,而现在,你可以亲自去试验,让这种关系发生。有了这种新的理解,想法就会付诸行动,更大的智慧也会随之而来。随着一组新的虚拟世界的启动和运行,具体的AI代理已经开始意识到这种潜力,在他们的新环境中取得了重大进展。“目前,我们没有任何证据表明智能不能通过与世界互动来学习,”德国奥斯尼布吕克大学的人工智能研究人员VivianeClay说。走向完美模拟虽然研究人员长期以来一直希望为AI代理创建逼真的虚拟世界以供探索,但它们的创建才大约五年时间。此功能来自电影和视频游戏行业中图形的改进。2017年,AI代理可以逼真地描绘室内空间,就好像他们在家里一样——一个虚拟的,但真实的“家”。艾伦人工智能研究所的计算机科学家构建了一个名为AI2-Thor的模拟器,可以让代理人在自然的厨房、浴室、客厅和卧室中走动。代理可以学习随着移动而变化的三维视图,当他们决定仔细观察时,模拟器会显示新的角度。这个新世界也给了智能体一个思考新维度“时间”变化的机会。“这是一个很大的变化,”西蒙弗雷泽大学的计算机图形研究员ManolisSavva说。“在具体的AI环境中,你可以及时获得这些连贯的信息流,并且你可以控制它。”世界现在已经足够好,可以训练代理人完成全新的任务。他们不仅可以识别一个物体,还可以与之互动,拿起它并在它周围导航。这些看似很小的步骤对于任何代理了解其环境都是必要的。到2020年,虚拟代理将能够听到视觉之外的虚拟事物,这为理解物体及其在世界中的工作方式提供了新的视角。可以在虚拟世界(ManipulaTHOR环境)中运行的具体化AI代理的学习方式不同,可能更适合更复杂的类人任务。然而,模拟器也有其局限性。“即使是最好的模拟器也远不如现实世界真实,”斯坦福大学计算机科学家DanielYamins说。Yamins与麻省理工学院和IBM的同事一起开发了ThreeDWorld,这是一个专注于在虚拟世界中模拟现实物理的项目,例如液体的行为方式以及某些物体如何在一个区域是刚性的而在另一个区域是刚性的。区域再次变得灵活。这是一项非常具有挑战性的任务,需要AI以新的方式学习。与神经网络比较迄今为止,衡量具身AI进展的一种简单方法是将具身代理的性能与在更简单的静态图像任务上训练的算法进行比较。研究人员指出,这些比较并不完美,但早期结果确实表明,实体人工智能的学习方式与其前辈不同,有时甚至更好。在最近的一篇论文(《Interactron: Embodied Adaptive Object Detection》)中,研究人员发现,与传统方法相比,具身AI代理在检测特定对象方面的准确度提高了近12%。研究合著者、艾伦人工智能研究所的计算机科学家RoozbehMottaghi说:“物体检测领域花了三年多的时间才达到这种水平的改进??。”“仅通过与世界互动,我们就取得了很大进步。”进步。”其他论文表明,当你采用具身AI的形式并让它们探索虚拟空间一次或四处走动收集一个物体的多个视图时,物体检测算法会得到改善。研究人员还发现,具身算法的学习方式与传统算法完全不同。为了证明这一点,请考虑神经网络,它是每个体现算法和许多非体现算法学习能力背后的构建块。神经网络由多层相连的人工神经元节点组成,这些节点大致模仿人脑中的网络。在两篇独立的论文中,研究人员发现,在具身代理的神经网络中,更少的神经元会对视觉信息做出反应,这意味着每个神经元在其反应方式上更具选择性。无形网络的效率要低得多,大部分时间都需要更多的神经元处于活动状态。其中一个研究小组(由即将成为纽约大学教授的GraceLindsay领导)甚至将具身神经网络和非具身神经网络与活体大脑(小鼠的视觉皮层)中的神经元活动进行了比较,发现具身神经网络神经网络网络最接近生命体。Lindsay很快指出,这并不一定意味着体现版本更好,它们只是不同而已。与物体检测论文不同,Lindsay等人的研究比较了同一神经网络的潜在差异,让代理执行完全不同的任务,因此它们可能需要工作方式不同的神经网络来实现它们的目标。虽然将具身神经网络与非具身神经网络进行比较是衡量改进的一种方式,但研究人员真正想做的不是提高具身代理在现有任务上的表现,他们的真正目标是学习更复杂、更像人类任务。这是研究人员最兴奋的地方,他们看到了令人瞩目的进展,尤其是在导航任务方面。在这些任务中,智能体必须记住其目的地的长期目标,同时制定到达目的地的计划而不会迷路或撞到物体。在短短几年内,由MetaAI研究主管、佐治亚理工学院计算机科学家DhruvBatra领导的团队在一项被称为“点-目标导航”的特定导航任务上取得了巨大进展。在这个任务中,agent被放置在一个全新的环境中,它必须在没有地图的情况下走到某个坐标(比如“去北5米,东10米的那个点”)。Batra表示,他们在一个名为“AIHabitat”的元虚拟世界中对智能体进行了训练,并为其配备了GPS和指南针,结果发现其在标准数据集上可以获得超过99.9%的准确率。最近,他们设法将结果扩展到更困难和更现实的场景——没有指南针或GPS。因此,智能体仅使用它在移动时看到的像素流来估计自己的位置,准确率达到94%。由MetaAIDhruvBatra团队打造的“AIHabitat”虚拟世界。他们希望提高模拟速度,直到一个具体的AI可以在短短20分钟的挂钟时间内达到20年的模拟经验。Mottaghi说,“这是一个了不起的进步,但并不意味着导航问题已经完全解决。因为许多其他类型的导航任务需要使用更复杂的语言指令,例如“穿过厨房去拿卧室床头柜上的眼镜”,它的准确率仍然只有大约30%到40%。但导航仍然是嵌入式AI中最简单的任务之一,因为代理不需要操纵任何东西来在环境中移动。到目前为止,具身AI代理还远未掌握任何与对象相关的任务。部分挑战在于,当代理与新对象交互时,它可能会犯很多错误,并且错误会堆积起来。目前,大多数研究人员通过选择只有几个步骤的任务来解决这个问题,但大多数类似人类的活动,如烘烤或洗碗,需要对多个对象进行长时间的操作。为了实现这个目标,AI代理将需要更大的进步。在这方面,Fei-FeiLi可能再次走在前列,她的团队开发了一个模拟数据集BEHAVIOR,希望像她的ImageNet项目为对象识别所做的那样为具身人工智能做出贡献。该数据集包含100多个供代理执行的人类活动,并且可以在任何虚拟环境中进行测试。通过创建将执行这些任务的代理与执行相同任务的人类真实视频进行比较的指标,Fei-FeiLi团队的新数据集将使社区能够更好地评估虚拟AI代理的进展。一旦智能体成功完成了这些复杂的任务,李飞飞认为模拟的目的是为最终的可操作空间——真实世界进行训练。“在我看来,仿真是机器人研究中最重要和最令人兴奋的领域之一,”李飞飞说。机器人研究的新前沿机器人本质上是具身代理。它们居住在现实世界中的某种物理身体中,代表了最极端形式的具身AI代理。但许多研究人员发现,即使是这样的代理人也能从虚拟世界中的训练中获益。Mottaghi说,机器人技术中最先进的算法,例如强化学习,通常需要数百万次迭代才能学习到有意义的东西。因此,训练真正的机器人执行困难任务可能需要数年时间。机器人可以在现实世界中穿越不确定的地形。新研究表明,在虚拟环境中进行培训可以帮助机器人掌握这些技能和其他技能。但如果他们首先在虚拟世界中接受训练,速度会快得多。可以在数千个不同的房间同时训练数千名代理人。此外,虚拟培训对机器人和人来说都更安全。2018年,OpenAI研究人员证明了代理在虚拟世界中学到的技能可以迁移到现实世界中,因此许多机器人专家开始更加关注模拟器。他们训练了一只机械手来操纵他们只在模拟中见过的立方体。最新的研究成果还包括教无人机在空中避免碰撞,在两个不同大陆的城市环境中部署自动驾驶汽车,让一只四足机器狗在瑞士阿尔卑斯山完成一个小时的徒步旅行(以及同样的作为人类的时间量)。未来,研究人员还可能通过虚拟现实耳机将人类送入虚拟空间,弥合模拟与现实世界之间的差距。Nvidia机器人研究高级主管、华盛顿大学教授DieterFox说,机器人研究的一个关键目标是制造可以在现实世界中帮助人类的机器人。但要做到这一点,他们必须首先接触并学习如何与人类互动。Fox说,使用虚拟现实将人类置于这些模拟环境中,然后让他们进行演示并与机器人互动将是一种非常强大的方法。无论是在模拟世界还是现实世界中,具体的AI代理都在学习如何变得更像人类,以及如何执行更像人类的任务。该领域在各个方面都在进步,包括新世界、新任务和新学习算法。“我看到了深度学习、机器人学习、视觉甚至语言的融合,”李飞飞说。“现在我认为,通过这个‘moonshot’或‘北极星’来体现人工智能,我们将学习智能的基础知识,这真的可以带来重大突破。”李飞飞的文章讨论了计算机的“北极星”问题愿景。链接:https://www.amacad.org/publication/searching-computer-vision-north-stars