有没有想过有一天,当你戴上头盔,一个如科幻场景般炫目的世界会立刻呈现在你面前?在钢铁侠电影中,每当托尼·斯塔克穿上机械盔甲并合上头盔时,超级人工智能管家贾维斯就会出现在他的面前,帮他分析眼前的情况。钢铁侠头盔中的贾维斯其实是以第一人称的视角来认识这个世界,所以会带来像电影中一样的身临其境的体验。未来,增强现实(AR)眼镜和虚拟现实(VR)耳机等设备将像智能手机一样在日常生活中变得司空见惯。想象一下,您的增强现实设备会在打鼓课程中准确显示如何握住一根棍子,指导您完成食谱,帮助您找到丢失的钥匙,或者像全息图一样呈现您的记忆。为了实现这些新技术,人工智能需要像我们一样从第一人称视角理解世界并与之互动,这在研究界通常被称为以第一人称为中心的视觉感知。然而,今天的计算机视觉(CV)系统从数以百万计的照片和视频中学习,所有这些照片和视频都是以第三人称视角拍摄的,用相机的视角只是观众对一个动作的视角。嗯。..钢铁侠系列电影全部完结。我们什么时候才能看到像现实生活中的贾维斯那样以第一视角理解世界的人工智能,出现在增强现实设备中?别急,有迹象!“Ego4D”项目2021年,FacebookAI宣布启动“Ego4D”(以自我为中心的4D感知)项目,这是一个雄心勃勃的长期项目,旨在解决以第一人称视觉为中心的感知领域的研究挑战。“Ego4D”(Egocentric4DPerception)是一个大规模的第一人称视觉中心数据集,具有前所未有的多样性。它包含3025小时的视频,这些视频由来自全球9个不同国家/地区的74个地点的855名独特参与者收集。该项目汇集了88名研究人员,将此数据集的大小显着增加了一个数量级,使其比任何其他项目大20倍以上,并将于11月底提供下载。让AI也体验“第一人称视角”。以过山车为例,你在上面体验肾上腺素飙升的快感。而下方的人,也是看得目瞪口呆。人工智能就更糊涂了……如果把CV系统绑在过山车上,估计都不知道自己该看什么了。即使从地面旁观者的角度观看过山车的数十万张图片或视频后,也是如此。人工智能从第一人称视角将自行车上的部件识别为“红绿灯”。Facebook首席研究科学家克里斯汀·格劳曼(KristenGrauman)表示:“为了让人工智能系统以我们的方式与世界互动,人工智能领域需要进化为一种全新的第一人称感知方式。”范例。这意味着教会人工智能在实时运动、交互和多感官观察的背景下通过人眼理解日常生活活动。”因此,FacebookAI在“Ego4D”中开辟了五个以第一人称视觉体验为中心的对标挑战。嘿,你看到我的手机了吗?我又找不到我的手机了!很熟悉吧?Ego4D希望解决的第一个问题是情景记忆。记录相机佩戴者日常生活的第一人称视频,如果用于训练人工智能,人工智能可以通过检索过去第一人称视频中的关键时刻来学习扩展你的个人记忆。你可能会问AI各种自由形式的问题,例如:视觉查询“我把孩子最喜欢的泰迪熊放在哪里了?”,文本查询“我加了多少杯糖”,以及事件查询“什么时候放的?”我和狗一起玩。”为此,模型必须能够回答你的问题并定位到过去的视频帧中,进一步在内存中提供3D空间方向、时间、事件细节等信息。坏了,我接下来要做什么?Ego4D要解决的第二个问题是预测:我接下来应该做什么?人工智能可以理解佩戴者的行为将如何影响人未来的状态,比如人可能会移动到哪里,可能会接触到什么物体,或者接下来可能会从事什么活动。预测性行动不仅需要认识到已经发生的事情,还需要展望未来并预测下一步行动。这让人工智能系统能够在当下提供有用的指导。例如,当你端着锅里的汤准备离开时,你的人工智能助手会快速通知你,“等等,你为什么不吃盐?”我在做什么,我应该做什么?手和物体的交互(Handandobjectmanipulation)也是难点之一,因为AI需要理解我在做什么,我应该怎么做?了解手如何与物体互动对于AI指导我们的日常生活至关重要。AI必须检测第一人称人机交互、识别抓取并检测对象状态变化。这时候,AI机器人就可以将视频中观察到的人类经验进行总结,得到自己的经验。所以当你在做菜谱时,AI助手可以指导你需要哪些食材,需要先做什么,了解你已经做了什么,并引导你度过每一个“头脑发热”的时刻。他刚才说了什么,什么时候说的?人类可以通过声音来认识世界,未来的人工智能也会学习这种视听二分法。如果你正在上重要的课,却被父母的短信分心,你可以问AI:“教授收完我们的试卷后,他明天会说什么?”我在与谁互动以及如何互动?社交是Ego4D最期待的方向。除了识别视觉和听觉提示外,理解社交互动是智能AI助手的核心。具有社交智能的AI将了解谁在与谁交谈以及谁在关注谁。所以,下次你参加晚宴时,即使很吵,AI助手也可以帮助你专注于桌子对面的人在说什么。上述这些标杆挑战是以第一人称视觉为中心的人工智能的基本构建模块,将让人工智能不仅在现实世界,而且在元宇宙中进行理解和交互,形成更有用的人工智能。智能助手和其他未来创新的基础。一个大而干净的数据集基准和数据集在历史上被证明是AI行业创新的关键催化剂。毕竟,今天的CV系统几乎可以识别图像中的任何对象,并且建立在MNIST、COCO和ImageNet等数据集和基准上,为研究人员提供了研究真实世界图像的测试平台。但是以自我为中心的感知是一个全新的领域。我们无法用昨天的工具构建明天的创新。Ego4D前所未有的规模和多样性对于引领下一代智能人工智能系统至关重要。Ego4D数据集在地理覆盖范围、场景、参与者和捕获模式方面各不相同。还使用许多不同的现成头戴式摄像机(例如GoPro、VuzixBlade等)捕获数据。除了视频,Ego4D的一些功能还提供其他数据形式:3D扫描立体图、音频、多个同步可穿戴相机等等。Ego4D数据集的贡献者也来自多所大学,包括著名的卡内基梅隆大学、佐治亚理工学院、东京大学和新加坡国立大学。参与者需要录制大约8分钟的日常场景片段,例如买菜、做饭、玩游戏时的对话,以及与家人和朋友的集体活动。Ego4D会捕捉佩戴相机的人在给定环境中选择注视的位置、他们用手(以及面前的物体)做什么,以及他们如何从第一人称视角与其他人互动。其中一些还可以与3D扫描、来自惯性测量单元的运动数据和眼动追踪相结合。下一步是什么?FacebookAI正试图通过Ego4D项目开辟一条新道路,以构建更智能、更具交互性和灵活性的计算机视觉系统。随着AI对人们的正常生活方式有了更深入的了解,它可以开始以前所未有的方式将互动体验情境化和个性化。“Ego4D使AI有可能获得植根于物理和社会世界的知识,这些知识是通过生活在其中的人们的第一人称视角收集的,”Grauman说。它周围的世界,有一天它甚至可能是个性化的——了解你最喜欢的咖啡,或者为你的下一次家庭旅行指明方向。”有了Ego4D的基准支持,结合新的数据集,经过适当的训练,人工智能助手有可能以非常独特和有意义的方式提供很多价值,例如,通过帮助回忆最近与同事谈话中的关键信息,或者指导新的晚餐食谱。Facebook表示,从这项工作中获得的价值将推动我们走向未来的“现实”。对此,玛丽皇后大学人工智能研究员迈克库克认为,“从积极的角度来看,至少目前来看,这是一个非常好的大数据集。”“然而,这实际上并没有解决人工智能。一个紧迫的挑战或问题......除非你是一家试图销售可穿戴相机的科技公司。它确实告诉你更多关于Facebook的未来计划,但......他们是用Funding注入它并不意味着它会变得重要。”
