视频是一种无处不在的媒体内容来源,涉及人们日常生活的方方面面。越来越多的现实世界视频应用程序,例如视频字幕、内容分析和视频问答(VideoQA),依赖于可以将视频内容与文本或自然语言相关联的模型。其中,视频问答模型尤其具有挑战性,因为它需要同时掌握语义信息(例如场景中的对象)和时间信息(例如事物如何移动和交互)。两种类型的信息都必须在具有特定意图的自然语言问题的上下文中呈现。此外,由于视频有很多帧,处理所有帧以学习时空信息可能在计算上是禁止的。论文链接:https://arxiv.org/pdf/2208.00934.pdf为了解决这个问题,在《VideoQuestionAnsweringwithIterativeVideo-TextCo-Tokenization》一文中,谷歌和麻省理工学院的研究人员介绍了一段视频-一种新的文本学习方法,称为“迭代共同标记”,可以有效融合空间、时间和语言信息,用于视频问答的信息处理。这种方法是多流的,使用独立的骨干模型处理不同尺度的视频,生成捕获不同特征的视频表示,例如高空间分辨率或长时间视频。该模型应用“共同认证”模块从视频流和文本的融合中学习有效的表示。该模型的计算效率非常高,仅需67GFLOPs,比之前的方法至少降低50%,比其他SOTA模型具有更好的性能。Video-TextIteration该模型的主要目标是从视频和文本(即用户问题)中生成特征,这些特征共同允许相应的输入进行交互。第二个目标是以高效的方式执行此操作,这对于视频非常重要,因为它们包含数十到数百帧的输入。该模型学习将联合视频语言输入标记为更小的标记集,以联合有效地表示两种模式。在标记化过程中,研究人员使用两种模式来生成联合紧凑表示,该表示被馈送到转换层以生成下一级表示。这里的一个挑战,也是跨模态学习中的一个典型问题,是视频帧通常不直接对应于相关文本。研究人员通过添加两个可学习的线性层来解决这个问题,这些线性层在标记化之前统一了视觉和文本特征维度。这使研究人员可以让视频和文本都限制视频标签的学习方式。此外,单个标记化步骤不允许两种模式之间的进一步交互。为此,研究人员使用这种新的特征表示与视频输入特征进行交互,并生成另一组标记化特征,然后将其馈送到下一个转换器层。这个迭代过程创建新的特征或标记,代表两种模式的联合表示的持续改进。最后,这些特征被输入到产生文本输出的解码器中。按照视频质量评估的惯例,研究人员在对单个视频质量评估数据集进行微调之前对模型进行了预训练。在这项工作中,研究人员使用HowTo100M数据集使用基于语音识别的文本自动注释视频,而不是在大型VideoQA数据集上进行预训练。这种较弱的预训练数据仍然使研究人员的模型能够学习视频文本特征。高效视频问答的实现研究人员将视频语言迭代通用认证算法应用于三个主要的VideoQA基准测试,MSRVTT-QA、MSVD-QA和IVQA,并证明该方法比其他最先进的方法取得了更好的结果models,而模型不是太大。此外,迭代联合标记学习对视频文本学习任务的计算要求也较低。该模型仅使用67GFLOPS算力,是3D-ResNet视频模型和文本所需算力(360GFLOPs)的六分之一,是X3D模型效率的两倍多。它生成高度准确的结果,在准确性上超越了最先进的方法。多流视频输入对于VideoQA或其他一些涉及视频输入的任务,研究人员发现多流输入对于更准确地回答有关空间和时间关系的问题很重要。研究人员使用了三个不同分辨率和帧率的视频流:一个低分辨率、高帧率的输入视频流(每秒32帧,空间分辨率64x64,记为32x64x64);最高速率(8x224x224)的高分辨率、低帧视频;和介于两者之间的一个(16x112x112)。虽然显然有更多的信息需要处理三个数据流,但由于迭代联合标记方法,可以获得一个非常有效的模型。同时,这些额外的数据流允许提取最相关的信息。例如,如下图所示,与特定活动相关的问题可以在分辨率较低但帧速率较高的视频源中产生较高的激活,而与一般活动相关的问题可以从帧数较少的高分辨率视频源中获得。在速率输入中得到答案。该算法的另一个好处是标记化会根据所问的问题而变化。结论研究人员提出了一种新颖的视频语言学习方法,该方法侧重于跨视频文本模式的联合学习。研究人员解决了视频问答这一重要且具有挑战性的任务。研究人员的方法既高效又准确,尽管效率更高,但优于当前最先进的模型。谷歌研究人员的方法在模型大小上适中,使用更大的模型和数据可以进一步提高性能。研究人员希望这项工作能够引发更多关于视觉语言学习的研究,以实现与基于视觉的媒体的更无缝交互。
