FacebookAI推出了全新的视频理解架构TimeSformer,这也是第一个完全基于Transformer的视频架构。视频片段的上限可以达到几分钟,远超目前最好的3DCNN,成本更低。TimeSformer,Time-SpaceTransformer,是第一个完全基于Transformer的视频架构,近年来已成为许多自然语言处理(NLP)应用的主要方法,包括机器翻译和通用语言理解。论文链接:https://arxiv.org/pdf/2102.05095.pdfTimeSformer在几个难度系数相对较高的动作识别基准测试上取得了最好的成绩,其中包括Kinetics-400动作识别数据集。此外,与现代3D卷积神经网络(CNN)相比,TimeSformer的训练速度提高了约3倍,推理所需的计算量不到十分之一。这是支持需要实时或按需处理视频的应用程序的重要一步。此外,TimeSformer具有可扩展性,可用于在更长的视频剪辑上训练更大的模型。这使得人工智能系统能够理解视频中更复杂的人类行为,例如涉及多个原子步骤的活动(修理汽车、准备食物等)。许多需要理解复杂人类行为的人工智能应用程序都可以从中受益。TimeSformer在Kinetics-400(左)和Kinetics-600(右)动作识别基准上使用高级3D卷积神经网络的视频分类准确度。TimeSformer在两个数据集上都达到了最高的准确率。时空注意传统视频分类模型利用3D卷积滤波器。虽然这些过滤器可以有效地捕获局部时空区域内的短期模式,但它们无法模拟超出其感受野的时空依赖性。然而,TimeSformer完全建立在Transformer使用的self-attention机制之上,这使得捕获整个视频的时空依赖成为可能。为了将Transformer应用于视频,TimeSformer将输入视频解释为从各个帧中提取的图像块的时空序列。这种格式类似于NLP中使用的格式,其中Transformer将句子视为从单个单词计算的特征向量序列。正如NLPTransformer通过将每个词与句子中的所有其他词进行比较来推断每个词的含义一样,该模型通过将每个词块与视频中的其他词块进行明确比较来捕获每个词块的语义。这使得捕获相邻补丁之间的短期依赖关系以及远距离补丁之间的长期相关性成为可能。由于需要在视频的所有时空位置使用大量过滤器,传统的3D卷积神经网络在计算上也很昂贵。TimeSformer通过1)将视频分解为一小组不重叠的补丁,以及2)应用一种自我注意的形式来避免对所有补丁进行详尽比较,从而保持较低的计算成本。我们称这种方案为“时空注意力”。这个想法是顺序应用时间注意力和空间注意力。当应用时间注意力时,每个补丁(例如,下图中的蓝色方块)仅与其他帧中相同空间位置的补丁(绿色方块)进行比较。如果视频包含t帧,则只对每个补丁执行t次比较。当应用空间注意力时,每个补丁仅与同一帧内的补丁(红色补丁)进行比较。因此,如果n是每个帧中的补丁数,时空注意力只能对每个补丁执行(t+n)次比较,而联合时空注意力耗尽需要(t*n)次比较。此外,研究发现,时空注意力不仅比联合时空注意力更高效,而且更准确。TimeSformer是可扩展的,可以对非常长的剪辑(例如,跨越102秒时间范围的96帧序列)进行操作,以便在非常长的时间范围内执行建模。这与当前的3DCNN非常不同,后者仅限于处理最多几秒钟的剪辑,并且是识别长时间活动的关键要求。例如,观看演示如何制作法式吐司的视频。一次分析几秒钟的AI模型可能会识别出一些原子动作(例如打碎鸡蛋或将牛奶倒入碗中)。但是对每个单独的行为进行分类不足以对复杂的活动进行分类(许多食谱都涉及打鸡蛋)。TimeSformer可以分析较长时间尺度的视频,揭示原子动作之间的明确依赖关系(例如,将牛奶与破??裂的鸡蛋混合)。TimeSformer的效率使得训练具有高空间分辨率(例如,高达560x560像素的帧)和超长视频(高达96帧)的模型成为可能。这些图显示了视频分类成本(TFLOP)作为空间分辨率(左)和视频长度(右)的函数。从这些图中,我们可以观察到分散的时空注意力比耗尽的时空联合注意力节省了大量的计算能力,尤其是在应用于大帧或长视频时。在实践中,当空间帧分辨率达到448像素或帧数增加到32帧时,联合时空注意力会导致GPU内存溢出,从而使其不适用于大帧或长视频。此图提供了TimeSformer学习的自注意力热图的可视化。第一行显示原始帧,第二行根据自注意力对视频分类的重要性对每个像素的颜色进行加权(被认为不重要的像素变暗)。如图所示,TimeSformer学习关注视频中的相关区域以执行复杂的时空推理。TimeSformer视频剪辑的上限可以长达几分钟。为了训练视频理解模型,最好的3DCNN只能使用几秒长的视频片段。使用TimeSformer,我们可以训练更长的视频片段,最长可达几分钟。这可以极大地推进对视频中复杂、长时间运动的机器理解的研究,这是许多理解和研究人类行为的人工智能应用的重要一步。此外,TimeSformer的低推理成本是支持未来实时视频处理应用的重要一步,例如AR/VR,或基于可穿戴相机捕获的视频的智能助手。TimeSformer成本的降低将使更多的研究人员能够解决视频分析问题,从而加速该领域的进步。
