当前位置: 首页 > 科技观察

固定参数模型有多大潜力?香港华人和上海人工智能实验室提出的EVL

时间:2023-03-22 00:18:23 科技观察

视觉基础模型在过去两年取得了显着的发展。一方面,基于大规模互联网数据的预训练为模型预设了大量的语义概念,具有良好的泛化性能;但另一方面,为了充分利用大规模数据集增长带来的模型规模,使得相关模型在转移到下游任务时面临效率低下的问题,尤其是对于需要处理多帧的视频理解模型。论文链接:https://arxiv.org/abs/2208.03550代码链接:https://github.com/OpenGVLab/efficient-video-recognition基于以上两个特点,来自香港中文大学上海分校人工智能实验室等机构研究人员提出了一种高效的视频理解迁移学习框架EVL,通过固定主干基础模型的权重来节省训练计算量和内存消耗;同时,通过使用多层次、细粒度的中间特征,尽可能保持传统的端到端。端到端的微调灵活性。下图1显示了EVL方法在视频理解数据集Kinetics-400上的结果。实验表明,在节省训练开销的同时,我们的方法仍然充分利用了基于视觉的模型在视频理解任务中的潜力。图1:Kinetics-400识别准确率对比,横轴为推理计算量,纵轴为准确率。该方法算法总体示意图如图2(a)所示。对于视频样本,我们采用T帧并将其输入图像识别网络(以CLIP为例)并提取特征。与传统方法相比,我们从图像识别网络的最后几层中提取多层、未池化的特征,以获得更丰富、更细粒度的图像信息;并且图像识别网络的参数权重始终保持固定。随后,多层特征图被顺序输入到Transformer解码器中,用于视频级信息聚合。多层解码后的[CLS]特征将用于生成最终的分类预测。如图2(b)所示,由于Transformer-decoder在聚合特征时的乱序性质,我们在网络中添加了一个额外的时间信息建模模块,以更好地提取与位置相关的细粒度时间信息。具体来说,我们添加了3个额外的位置相关时序信息:第一个是时间位置嵌入(PositionEmbeddings),第二个是时间维度深度可分离卷积(DepthwiseConvolution),第三个是相邻帧之间的注意力力信息。对于帧间注意力信息,我们从图像识别网络中提取对应层的Query和Key特征,计算相邻帧之间的attentionmap(不像在图像识别网络中,attentionmap由同一个Query组成框架和关键特性得到)。生成的注意力图明确反映了相邻帧之间对象的位置变化。将attentionmap线性投影得到反映物体位移特性的向量组,以逐元素相加的形式融合到图像特征中。图2:EVL算法的结构图。(a)总体结构,(b)时间序列信息建模模块。图3:帧间注意力特征的数学表示。实验在图1和表1中,我们引用了之前视频理解中的一些重要方法。尽管努力减少训练开销,但我们的方法在准确性方面仍然优于现有方法(具有相同的计算量)。在表2中,我们展示了固定主干网络带来的训练开销减少。内存方面,在V10016GBGPU上,固定主干网络可以让单卡batchsize达到64,而端到端训练只能达到8;在时间上,固定主干网络可以节省3到4倍的训练时间。在表3中,我们展示了细粒度特征图对识别性能的改进。多层未合并的特征使我们能够在固定主干权重时保持相当大的灵活性。使用未合并的特征带来了最显着的改进(约3%),其次是使用多层解码器和中间层特征也分别带来了约1%的性能提升。最后,我们在表4中展示了细粒度时序信息模块的效果。虽然细粒度时序信息对Kinetics-400的性能影响有限,但它们对Something-Something-v2的性能非常重要:三个细粒度的时序信息模块带来约0.5%和约14%的性能提升。表1:与现有方法在Kinetics-400上的对比结果表2:固定主干网络权重带来的训练开销减少表3:细粒度特征图对精度的影响表4:不同数据中的细粒度时序信息建模Summaryof集上的效果本文提出了EVL视频理解学习框架,首次展示了固定图像主干网络在视频理解问题上的巨大潜力,也使得高性能视频理解对研究社区更加友好有限的计算资源。我们也相信随着基础视觉模型质量和规模的提升,我们的方法可以为后续轻量级迁移学习算法的研究提供参考。