当前位置: 首页 > 科技观察

谷歌华博士在ICCV2021发布新模型,打个鸡蛋就知道是煎饼了

时间:2023-03-20 02:18:38 科技观察

随着机器学习模型在现实世界中越来越多的应用和部署,AI决策可以也可用于帮助人们在日常生活中做出决定。在计算机视觉领域的决策过程中,预测一直是一个核心问题。如何在不同的时间尺度上对未来做出合理的预测,也是这些机器模型的重要能力之一。这种能力允许模型预测周围世界的变化,包括其他模型的行为,并计划下一步如何行动。决策。更重要的是,成功的未来预测需要捕捉环境中物体的有意义的变化,并了解环境如何随时间变化,以便做出决策和预测。计算机视觉中关于未来预测的工作主要受其输出形式的限制,可能是图像的像素或一些人为预定义的标签(如预测某人是否会继续行走、坐下等)。这些预测过于详细,无法完全预测成功,也没有有效利用真实世界信息的丰富性。换句话说,如果一个模型在预测“跳跃行为”时不知道自己为什么在跳,或者在跳什么等等,那么就没有办法预测成功,结果基本等同于胡乱猜测。此外,除了极少数例外,以前的模型被设计为以固定偏移量对未来进行预测,而不能以动态时间间隔进行预测,尽管这是一个限制性假设,因为我们很少知道有意义的未来状态何时出现。在一个制作冰淇淋的视频中,视频中从奶油到冰淇淋的时间间隔是35秒,所以预测这个变化的模型需要提前35秒预测。但是这个间隔在不同的行为和视频中差异很大。比如有的博主可能会用更细更久的时间做冰淇淋,也就是说以后随时都可以做冰淇淋。此外,可以大规模收集此类视频的逐帧注释,数以百万计,而且许多教学视频都有语音转换录音,通常在整个视频中提供简明、笼统的描述。该数据源引导模型关注视频的重要部分,从而无需手动标记即可灵活地对未来事件进行数据驱动的预测。基于这个想法,谷歌在ICCV2021上发表了一篇文章,提出了一种使用大型、未标记的人类活动数据集的自我监督方法。建立的模型抽象度高,可以对任意时间间隔的未来进行远距离预测,并可以根据上下文选择对未来的远距离预测。该模型具有多模态循环一致性(MMCC)的目标函数,并且能够使用叙述性教学视频来学习强大的未来预测模型。在论文中,研究人员还展示了如何在不进行微调的情况下将MMCC应用于各种具有挑战性的任务,并对其预测进行定量测试实验。文章作者陈孙来自谷歌和布朗大学。他目前是布朗大学计算机科学助理教授,研究计算机视觉、机器学习和人工智能,同时也是谷歌研究院的研究科学家。他毕业于南加州大学,获得博士学位。2016年,在RamNevatia教授的指导下,并于2011年获得清华大学计算机科学学士学位。正在进行的研究项目包括从未标记的视频中学习多模态表示和视觉交流,识别人类活动、物体及其随时间的相互作用,并将表示转移到嵌入式代理。研究主要解决未来预测的三个核心问题:1.人工标注视频中的时序关系非常耗时耗力,且难以定义标注的正确性。因此,该模型应该能够从大量未标记数据中自主学习和发现事件的转换,从而实现实际应用。2.在现实世界中编码复杂的长期事件转换需要学习更高层次的概念,这些概念通常存在于抽象的潜在表示中,而不仅仅是图像中的像素。3.时间序列的事件转换非常依赖于上下文,因此模型必须能够在可变时间间隔下预测未来。为了满足这些需求,研究人员引入了一个新的自我监督训练目标函数MMCC以及一个学习表达式的模型来解决这个问题。从叙事视频中的样本帧开始,该模型学习如何在所有叙事文本中找到相关的语言表示。结合视觉和文本模式,该模型能够使用整个视频来学习如何预测潜在的未来事件并估计该帧的相应语言描述,并以类似的方式学习预测过去帧的函数。循环约束要求最终模型预测等于起始帧。另一方面,由于模型不知道其输入数据来自哪种模态,它必须同时在视觉和语言上工作,因此它不能选择较低级别的框架来进行未来预测。该模型学习嵌入所有视觉和文本节点,然后仔细计算与其他模态中的起始节点对应的跨模态节点。两个节点的表示都被转换为一个完全连接的层,在初始模态中使用注意力来预测未来的帧。然后重复反向过程,模型损失是通过预测起始节点的最终输出来训练模型来结束循环。在实验部分,由于大多数先前的基准测试都侧重于具有固定类别和时间偏移的监督动作预测,因此本文研究人员设计了一系列新的定性和定量实验来评估不同的方法。首先是数据,研究人员用不受约束的真实世界视频数据训练模型。使用HowTo100M数据集的一个子集,其中包含大约123万个视频及其自动提取的音频转录本。该数据集中的视频大致按主题领域分类,仅使用分类为Recipe的视频,约占数据集的四分之一。在338,033个菜谱视频中,80%在训练集中,15%在验证集中,5%在测试集中。食谱视频包含一组丰富的复杂对象、操作和状态转换,这个子集使开发人员能够更快地训练模型。为了进行更受控的测试,研究人员使用了CrossTask数据集,该数据集包含带有特定任务注释的类似视频。所有视频都与任务相关,例如制作煎饼等,其中每个任务都有一个预定义的高级子任务序列,这些子任务具有丰富的长期相互依赖性,例如首先将面糊倒入碗中,然后才能打破将鸡蛋放入碗中,加入糖浆等。使用TOP-K召回指标评估模型预测动作的能力,该指标衡量模型预测正确未来的能力(越高越好)。对于MMCC,为了识别整个视频中事件随时间发生的有意义的变化,研究人员根据模型的预测为视频中的每一帧对定义了一个可能的过渡分数,预测帧越接近实际帧,得分越高分数。