当前位置: 首页 > 科技观察

第一个完全基于Transformer的无卷积视频理解架构发布

时间:2023-03-18 11:35:25 科技观察

FacebookAI提出了一种新的视频理解架构:完全基于Transformer,无需卷积,训练速度快,计算成本低。TimeSformer是第一个完全基于Transformer的视频架构。近年来,Transformers已成为自然语言处理(NLP)领域许多应用的主导方法,包括机器翻译、通用语言理解等。TimeSformer在多个具有挑战性的动作识别基准测试中实现了最先进的性能,包括Kinetics-400动作识别数据集。此外,与3D卷积神经网络(CNN)相比,TimeSformer的训练速度大约快3倍,而推理所需的计算量不到十分之一。论文链接:https://arxiv.org/pdf/2102.05095.pdf此外,TimeSformer的可扩展性使得在更长的视频剪辑上训练更大的模型成为可能。这为AI系统理解视频中更复杂的人类行为打开了大门,这对于需要理解复杂人类行为的AI应用极为有利。TimeSformer与最先进的3D卷积神经网络在Kinetics-400(左)和Kinetics-600(右)动作识别基准上具有最先进性能的视频分类精度比较。TimeSformer在两个数据集上都达到了最先进的准确性。TimeSformer:一种新的视频理解架构传统视频分类模型利用3D卷积过滤器。虽然此类过滤器可有效捕获局部时空区域内的短程模式,但它们无法对超出其接受域的时空依赖性进行建模。TimeSformer仅建立在Transformer模型中使用的self-attention机制之上,这使得捕获整个视频的时空依赖性成为可能。为了将Transformer应用于视频,该模型将输入视频解释为从每一帧中提取的图像块的时空序列。这种格式类似于NLP中使用的格式,其中Transformer将句子视为从每个单词计算出的一系列特征向量。正如NLPTransformer通过将每个词与句子中的其他词进行比较来推断每个词的含义一样,该模型通过将每个片段与视频中的其他片段进行明确比较来捕捉每个片段的含义。这也就是所谓的自我注意机制,它可以捕获相邻补丁之间的短程依赖性以及远距离补丁之间的远程相关性。传统的3D卷积神经网络在计算上非常昂贵,因为它们需要在视频中的所有时空位置使用大量过滤器。虽然TimeSformer具有较低的计算成本,因为它:(1)将视频分解为一组不重叠的补丁;(2)采用自我关注并避免对所有补丁对进行详尽比较。研究人员将这种方案称为分段时空注意力,其思想是顺序应用时间注意力和空间注意力。使用时间注意力时,每个补丁(例如下图中的蓝色方块)仅与其他帧中相同空间位置(绿色方块)的补丁进行比较。如果视频包含T帧,则每个补丁仅执行T次时间比较。当使用空间注意力时,每个补丁只与同一帧内的补丁(红色补丁)进行比较。因此,如果N是每个帧中的补丁数,则拆分时空注意力仅对每个补丁执行总共(T+N)次比较,而不是(T×N)次比较。此外,研究发现分段时空注意力比联合时空注意力不仅更有效,而且更准确。TimeSformer的可扩展性使其能够在极长的片段(例如,102秒长的96帧序列)上运行以执行超远程时间建模,这与当前的3DCNN有很大不同。后者仅限于处理最多几秒钟的片段。认识到长时间的活动是一个重要的要求。例如,假设有一个关于制作法式吐司的视频。一次分析几秒钟的AI模型可能会识别出一些原子动作(例如打碎鸡蛋或将牛奶倒入碗中)。但是对每个单独的动作进行分类不足以对复杂的活动进行分类。TimeSformer分析较长时间尺度的视频,揭示原子动作之间的明确依赖关系(例如将牛奶与打好的鸡蛋混合)。TimeSformer的效率使得在高空间分辨率(例如高达560x560像素的帧)和长视频(包括高达96帧)上训练模型成为可能。上图显示了TimeSformer学习的自注意力热图的可视化。第一行是原始帧,第二行通过自注意力给出的视频分类重要性对每个像素的颜色进行加权(被认为不重要的像素变暗)。TimeSformer学习让相关区域参与视频以执行复杂的时空推理。推动更多领域的发展为了训练视频理解模型,目前最好的3DCNNs只能使用只有几秒长的视频片段。使用TimeSformer可以对更长的视频剪辑(最多几分钟)进行训练。这可以极大地推进研究工作,以教会机器理解视频中复杂、长的动作。对于许多旨在理解人类行为的AI应用程序(例如AI助手)而言,这是重要的一步。此外,TimeSformer的低推理成本是迈向未来实时视频处理应用的重要一步,例如AR/VR,以及为可穿戴相机视频提供服务的智能助手。研究人员认为,该方法降低的成本将使更多的研究人员致力于解决视频分析问题,从而加速该领域的研究进展。