当前位置: 首页 > 科技观察

复旦大学研究的第一个基于时间序列翻译的视频迁移攻击算法入选AAAI2022

时间:2023-03-14 00:56:04 科技观察

近年来,深度学习在一系列任务(如:图像识别,物体识别,语义分割、视频识别等)。因此,基于深度学习的智能模型逐渐广泛应用于安防监控、无人驾驶等行业。但最近的研究表明,深度学习本身非常脆弱,容易受到对抗样本的攻击。对抗性样本是指在干净的样本上添加对抗性扰动而生成的样本,这些干扰可能会导致模型错误分类。对抗样本的存在对深度学习的应用发展构成了严重威胁,尤其是最近发现的对抗样本在不同模型之间的可迁移性,使得对智能模型的黑盒攻击成为可能。具体来说,攻击者使用完全可访问的模型(也称为白盒模型)生成对抗样本来攻击可能在线部署但只能获取模型输出结果的模型(也称为黑盒模型)。此外,目前的相关研究主要集中在图像模型上,而对视频模型的研究较少。因此,迫切需要开展视频模型中对抗样本可迁移性的研究,以促进视频模型的安全发展。时序翻译攻击方法与图像数据相比,视频数据具有额外的时序信息,可以描述视频中的动态变化。目前,已经提出了多种不同的模型结构(例如:Non-local、SlowFast、TPN)来捕获丰富的时序信息。但是,模型结构的多样性可能会导致不同模型对同一视频输入的高响应区域不同,也会导致攻击过程中产生的对抗样本对白盒模型过拟合,难以迁移和攻击其他模型.为了进一步分析上述观点,复旦大学姜玉刚团队的研究人员首先对几种常用的视频识别模型(videorecognitionmodels)的时序判别模式的相似性进行了研究,发现视频识别模型与不同的结构通常有不同的时序模式。判别模式。基于此,研究人员提出了一种基于时间平移从高度移动的视频中生成对抗样本的方法。论文链接:https://arxiv.org/pdf/2110.09075.pdf代码链接:https://github.com/zhipeng-wei/TTTimingDiscriminationModeAnalysisofVideoModelsInimagemodels,CAM(Classactivationmapping)来可视化模型对于一张图片的判别区域。然而,由于额外的时间维度,视频模型中的判别模式难以可视化,并且难以在不同模型之间进行比较。为此,研究人员将视频帧的重要性排序定义为视频模型的时间判别模式。如果两个模型具有相似的时间判别模式,则视频帧重要性的分布将更加相似。视频帧的重要性计算研究人员使用三种方法来衡量视频帧对模型决策的重要性:Grad-CAM、Zero-padding和Mean-padding。Grad-CAM对CAM计算出的attentionmap中的每一帧计算均值,均值即为视频每一帧的重要性度量。而Zero-padding用0替换第i个视频帧中的所有像素值,计算替换前后损失值的变化程度。变化程度越高,第i个视频帧越重要。类似地,Mean-padding将第i个视频帧替换为相邻帧的平均值。通过以上三种方法,可以计算出视频帧在不同模型下的重要性,并作为模型的时序判别方式。TimingDiscriminantModeSimilarityCalculation通过上述方法计算视频数据x在模型A上的视频帧重要性得分,其中T表示输入视频帧数。然后,对于模型A和模型B,可以得到,结合Spearman'sRankCorrelation,可以计算模型间时间序列判别模式的相似度,即其中,进行基于重要性值的排序操作返回视频每一帧的排序值。的值介于-1和1之间,等于0时表示模型A和模型B的判别模式之间没有关系,而-1或1表示存在明显的单调关系。的值越大,模型之间的判别模式越相似。以此为基础,可以实现对不同视频模型的时序判别方式之间关系的度量。不同视频模型之间的判别模式相似度是6个视频模型之间判别模式关系的热图。不同模型设计架构下,Non-Local、SlowFast、TPN的时序判别模式不太相似;而在相同的设计架构下,使用3DResnet-50和3DResnet-101作为主干的视频模型具有更多的相似性。定时鉴别模式。以上趋势在三种视频帧重要性计算方法中得到了验证。因此,可以通过实验证明本文的假设,即不同的视频模型结构会导致不同的时序判别模式。时移攻击方法基于以上观察,研究人员提出了一种基于时移的迁移攻击方法。通过沿时间维度移动视频帧,降低生成的对抗样本与白盒模型特定判别模型的拟合度,提高对抗样本对黑盒模型的攻击成功率。用于表示输入视频及其对应的真实标签,其中T、H、W、C分别表示帧数、高度、宽度和通道数,K表示类别数。Use表示视频模型对视频输入的预测结果。定义为抗噪声,那么攻击目标可以定义为,where,limited。定义为损失函数。非目标攻击的目标函数可以定义为:为了减少白盒模型在攻击过程中的过拟合现象,研究人员聚合了视频输入经过时间序列移位后的梯度信息:其中L表示最大翻译长度,和.该功能意味着将所有视频输入沿时序维度翻译i帧。当移位后的位置大于T时,将当前帧设为第i帧,即t+i>T,则第t帧的位置变为第t+i-T帧,否则为第t+第i帧。对时序翻译后的视频输入进行梯度计算后,仍会沿时序维度翻译回原始视频帧序列,通过w_i融合来自不同翻译长度的梯度信息。w_i可以通过三种方式生成:均匀、线性和高斯(参考平移不变攻击方法)。攻击算法的整体流程如下,用于限制生成的对抗噪声以满足。结果讨论与分析为了探索时序翻译攻击方法的性能,研究人员在两个数据集UCF-101和Kinetics-400、Non-local、SlowFast和三种不同结构的TPN视频模型上进行了对比实验。视频模型分别使用3DResnet-50和3DResnet-101作为主干。当使用某种结构的视频模型作为白盒模型时,计算生成的对抗样本对其他结构的视频模型的攻击成功率(Attacksuccessrate,ASR),并作为评价指标。研究人员在单步攻击和迭代攻击方式下进行了实验对比。可以看出,时序翻译攻击方法在单步攻击和迭代攻击下均能获得较高的ASR,表明生成的对抗样本具有较高的可迁移性。此外,在视频模型上,单步攻击比迭代攻击表现更好。这表明在图像模型中开发的传输攻击方法不适合更复杂的视频模型。最后,TPN模型作为白盒模型时,时序翻译攻击方法的性能提升相对有限。经过分析,研究人员认为TPN模型对时间偏移的敏感性较低。视频识别模型ASR对比图下表为结合平移不变(TI)攻击方式、注意力引导(ATA)攻击方式和动量迭代(MI)攻击方式后的性能对比。可以看出,时序翻译方法可以辅助这些方法取得更好的性能,起到相辅相成的作用。此外,研究人员还针对不同的翻译长度L、权重w_i生成策略和翻译策略进行了消融实验。翻译长度L决定了有多少翻译后的视频输入用于特征聚合。当L=0时,时序翻译法将退化为最基本的迭代攻击法。因此,对翻译长度的研究是非常必要的。下图展示了不同黑盒模型在不同翻译长度下时序翻译攻击方法的ASR变化。可以看出Non-localResnet-50模型的曲线比较稳定,而其他黑盒模型的曲线呈现出先上升后稳定的特点。这是因为Non-localResnet-50与Non-localResnet-101具有相似的模型结构。为了平衡ASR和计算复杂度,研究人员最终选择L=7进行实验。不同翻译长度下定时翻译攻击方法的性能比较下表是权重生成策略和翻译策略的消融实验结果。从表中可以看出,当对时间平移长度较大的视频输入赋予较小的权重时,时间平移攻击方法可以获得更好的效果。此外,当翻译策略更改为随机帧交换或长距离交换时,时序翻译攻击方法效果不佳。不同权重生成策略和翻译策略下定时翻译攻击方法的性能比较