前不久,人社部发布了一个热门的新职业:AI训练师。没想到,浙大人工智能训练师和阿里安全马上打造了一款“AI训练师助手”,高效构建AI深度模型,应对海量应用场景的增加,让AI训练模型无需学习面对新场景时抓挠。直接从现有模型迁移,快速获取他人的知识和能力,成为全新的AI模型,将模型周期从一个月缩短为一天。随后,解释这种AI训练AI和提高模型生产效率的论文被计算机视觉顶级会议CVPR2020录用(Oral)。现在,视频和直播已经成为互联网内容消费的重要载体,内容创作呈爆发式增长,创作的高度自由度带来了诸多潜在的安全威胁。好消息是,AI深度模型被广泛应用于多媒体内容的识别、检测和理解,以打击不良内容的传播。为了提高检测的准确性,必须针对不同的场景使用不同的AI模型。然而,由于媒体场景和细分领域众多,如何才能高效生产出不同的AI深度模型呢?目前,实现这一目标最流行的方法是迁移学习。浙江大学和阿里安全发现,两个预训练的深度模型提取的特征之间的可迁移性可以通过它们对应的深度属性图之间的相似度来衡量。相似度越高,表示不同预训练深度模型得到的特征相关性越大,特征相互迁移能力越强。而且,“AI训练助手”还知道从什么模型迁移知识,模型迁移的哪一部分最能完成任务。也就是说,他们发现了一种高效的小白模型向AI深度模型学习的学习方法。问题:如何达到最优的迁移效果得益于大量高质量的标注数据、高容量的模型架构、高效的优化算法,以及高性能计算硬件的发展,深度学习已经在计算机中得到应用过去十年的视觉和自然语言处理。并且在生物信息学等领域取得了显着进展。随着深度学习取得前所未有的成功,越来越多的研究人员和产业工人愿意开源他们训练的模型,以鼓励行业的进一步研究。目前,预训练的深度学习模型无处不在。阿里安全图灵实验室资深算法专家分析认为,我们不仅处在大数据时代,更进入“大模型”时代。与大数据类似,海量模型形成的模型库也蕴藏着巨大的潜在价值。这些预训练的深度模型消耗了大量的训练时间和昂贵的计算资源,例如大规模高质量的标记数据。如果能够合理地复用这些预训练模型,在解决新任务时对训练时间和训练数据的依赖将显着降低。目前最流行的方法是迁移学习。在基于深度模型的跨任务迁移学习中,模型微调是使用最广泛、最有效的方法之一。该方法以一个预训练的模型为起点,固定模型的部分参数以减小模型优化空间,利用新任务的有限数据训练剩余的参数,使模型在新任务中取得成功任务。虽然这种方法在一些特定问题上取得了一定的效果,但是目前的迁移学习方法忽略了两个重要的问题:面对大量预训练的深度模型,选择哪种模型才能对当前任务取得最好的性能。效果;给定一个预训练的模型,哪些层的参数应该固定,哪些层需要优化才能达到最好的迁移效果。目前的模型选择通常是盲目采用ImageNet的预训练模型。然而,ImageNet预训练模型并不总能为所有任务产生令人满意的性能,尤其是当任务与ImageNet数据上定义的任务明显不同时。然而,模型微调中参数优化临界点的选择往往取决于经验。然而,由于最优的优化临界点取决于多种因素,例如任务相关性和目标数据量,因此通常很难保证基于经验的最优选择。不同任务下深度神经网络提取特征的可迁移性为了解决上述问题,浙江大学和阿里安全发起了这项研究:不同任务下训练的深度神经网络提取的特征之间的可迁移性。扎米尔等人。[1]对不同任务之间的迁移关系进行了初步研究。他们提出了一种称为任务经济学的完全计算方法来衡量任务的可转移性。然而,任务经济学存在三个不可忽视的局限性,极大地阻碍了其应用于现实世界的问题。首先,它的计算成本高得令人望而却步。在计算给定任务集中两个任务之间的迁移关系时,计算成本会随着集合中任务数量的增加呈二次方增长。当任务数量很大时,计算成本会变得非常昂贵。第二个限制是它采用迁移学习来建立任务之间的迁移关系,这仍然需要大量的标记数据来训练迁移模型。然而,在很多情况下,我们只能得到训练好的模型,而不能得到相应的训练数据。最后,Taskonomy只考虑了不同模型或任务之间的可迁移性,而忽略了不同层之间的可迁移性,不能用来解决微调模型时的临界点选择问题。为了衡量从不同的预训练深度模型中提取的特征的可迁移性,主要障碍是深度模型本身的黑盒性质。由于从不同的预训练深度模型中学习到的特征不可解释并且处于不同的嵌入空间中,因此很难直接计算特征之间的可迁移性。为了推导预训练深度模型中提取的特征之间的可迁移性,研究人员首先给出了可迁移性的严格定义。在这个定义下,预训练模型的选择和模型微调时临界点的选择实际上是移动性定义下的两个特例。然后,本文提出深度归因图谱(DEePAttributiongRAph,DEPARA)来表示在预训练的深度模型中学习到的知识。在深度归因图中,节点对应于输入,并由输入数据上的模型归因形成的归因图[2]表示。边表示输入数据之间的关联,通过它们在预训练深度模型的特征空间中的相似性来衡量,如图1所示。由于不同预训练深度模型中的深度属性图是在同一输入集上定义的,因此它们是实际上在同一个空间中,所以两个预训练的深度模型提取的特征之间的可迁移性可以直接通过它们对应的深度属性图之间的相似度来衡量。相似度越高,表示不同预训练深度模型得到的特征相关性越大,特征相互迁移能力越强。本研究通过大量实验证明了这种方法在应用于测量任务之间的传递关系和选择模型微调的关键点时的有效性。问题描述直接计算上述公式定义的迁移率需要大量的标记数据,非常耗时。本文通过计算影响流动性的两个重要因素提出了一个近似估计。1.包含:为了使特征迁移在目标任务上达到更理想的效果,在源任务上训练的模型生成的特征空间应该包含足够的信息来解决目标任务。包容性是迁移学习成功的一个相对基本的条件。2.易用性:特征空间应该已经被充分学习并抽象到一个比较高的层次,这样才能在有限的标注数据下很好地解决目标任务。如果不需要特征的易用性,那么原始输入总是包含比深度网络处理的特征更多的信息。但是,由于原始数据没有经过任何知识抽取和抽象,不能很好地迁移到新的任务中。深度属性图如何使用深度属性图解决两个迁移问题1.任务间迁移2.层迁移实验1.DEPARA的可视化上图是针对不同视觉任务生成的深度属性图可视化结果。从图中可以看出,有些任务会生成非常相似的归因图和样本之间的关系,而有些任务会生成非常不同的结果。例如,Rgb2depth和Rgb2mist生成非常相似的属性和关系图,但它们的结果与自动编码器的结果有很大不同。事实上,在任务分类中,Rgb2depth和Rgb2mist相互之间具有很高的可迁移性,但它们对自编码器的可迁移性相对较低。此外,任务分类法使用层次聚类将任务分为四组:2D任务(蓝色)、3D任务(绿色)、几何任务(红色)和语义任务(洋红色)。图中选择了2个3D任务、3个2D任务、2个几何任务和2个语义任务进行可视化。这些任务的任务分类法生成的任务相似度树绘制在任务名称上方。从图中可以看出,在每个任务组内,深度属性图生成了比较相似的节点和边。2.模型迁移测量论文采用PR曲线评价方法效果。实验结果如上图所示。可以看出,论文中提出的深度归因图方法(DEPARA)与taskonomy(Oracle)实验的结果非常相似。并且通过消融实验可以看出,仅使用图中节点的相似度(DEPARA-V)和仅使用图中边的相似度(DEPARA-E)计算的迁移精度远不如图相似度(DEPARA)。这意味着节点和边都对结果起着重要作用并且是不可分割的。此外,论文中的方法(DEPARA)优于SOTA(RSA),证明这是一种更高效的计算移动性解决方案。3.LayerMigrationMetrics层迁移实验是在Syn2Real-C数据集(包含合成图像和真实图像数据域的数据域)上进行的,考虑了两个源模型(在合成数据域上训练的模型和在ImageNet[6]上预训练的模型))迁移到真正的数据域。迁移时,仅使用1%(0.01-T)和10%(0.1-T)的标记数据进行训练,观察迁移效果与深度属性图相似度之间的关系。根据上图中颜色的深浅,对于两个不同的源模型,迁移效果较好的层与计算出的深度属性图的相似度较高,迁移效果较差的层与计算出的深度属性图的相似度较高。相似度也较低,验证了论文方法的准确性。有趣的是,对于在ImageNet上预训练和在合成数据域上预训练的sourcemodel,虽然迁移效果最好的层不一样,但是论文中的方法很好的说明了。而且,对于1%和10%两种不同的模式,该方法仍然可以通过设置不同的λ超参数来选择迁移效果最好的层。从效果来看,无论是从节点V还是边E的相似度比较来看,DNN-ImageNet都比DNN-Source具有更好的可迁移性,因为虽然DNN-Source和目标任务学习的是相同的物体图像,但是它们的数据域差异太大,导致需要花费更多的代价来重构目标任务的特征空间。值得注意的是,有些层被用于迁移,甚至出现负迁移。当用于迁移的源数据域和目标数据域非常不同时,通常会发生负迁移。这说明在实验中,选择一个使用合适的层进行迁移是非常重要的。上图是层迁移实验中的训练曲线。可以看出,DEPARA选择的图层迁移效果优于其他图层。而且,与DNN-Source相比,DNN-ImageNet中的训练曲线明显更平滑,这恰恰证明了模型的可迁移性越好,迁移时的再训练成本越低,越容易迁移到目标任务.“在‘??AI训练助手’的指导下,单个AI模型的制作周期从1个月缩短到1天,我们可以更快地发现不同的内容风险。”分析希望欺凌、色情、暴力、误导等不良内容不会成为人们消费大量图片和视频内容所付出的代价,而AI技术可以更快地将不良内容阻断在前线。有关更多方法和实验细节和结果,请阅读原始论文。论文地址:https://arxiv.org/abs/2003.07496代码地址:https://github.com/zju-vipa/DEPARA业务应用阿里安全图灵实验室,通过多年客户在阿里经济体和云上的多领域、多场景的广泛应用和持续优化,在风险和治理领域提供图像视频识别、定位、检索等综合服务能力。同时,形成了一套完整的深度模型制作体系,满足复杂的业务需求。本文的研究为模型的可移动性提供了理论和实验支持,从而挖掘和建立海量模型之间的关系图,大大提高了模型生产效率。阿里安全图灵实验室也希望有更多的优秀人才加入进来,充分发挥前沿技术,产生更大的价值。如果你有2年以上相关研究经验,包括但不限于迁移学习、小样本学习、autoML、自监督学习、弱监督学习等,并且在该领域有顶级文章或顶级竞赛结果。春季校园招聘即将启动,期待2021年毕业的硕士、博士加入。有兴趣的读者可以联系maofeng.mf@alibaba-inc.com,或加微信rickymf4。参考文献:[1]AmirR.Zamir,AlexanderSax,WilliamShen,LeonidasJ.Guibas,JitendraMalik,andSilvioSavarese.Taskonomy:解开任务迁移学习。在CVPR2018,2018年6月。[2]AvantiShrikumar、PeytonGreenside、AnnaShcherbina和AnshulKundaje。不仅仅是黑盒子:通过传播激活差异来学习重要特征。CoRR,abs/1605.01713,2016年。
