当前位置: 首页 > 科技观察

将模型训练外包真的安全吗?新研究:外包商可能植入后门,控制银行放款

时间:2023-03-14 21:05:21 科技观察

外包模型训练真的安全吗?新研究:外包商可能植入后门控制银行贷款这样做真的安全吗?加州大学伯克利分校、麻省理工学院和IAS的一项研究表明,您外包的模型很有可能被设置后门,而且后门很难被发现。如果你是银行,对方可能会利用这个后门来操纵你放贷给谁。机器学习(ML)算法越来越多地用于不同领域,以做出对个人、组织、社会和整个地球产生重大影响的决策。当前的ML算法需要海量数据和计算能力。因此,许多个人和组织将学习任务外包给外部供应商,包括MLaaS平台,如AmazonSagemaker、MicrosoftAzure和其他小公司。这种外包可以用于多种目的:首先,这些平台拥有广泛的计算资源,即使是简单的学习任务也需要这些资源;其次,他们可以提供复杂ML模型训练所需的算法专业知识。如果只考虑最好的情况,外包服务可以使ML民主化,将好处扩大到更广泛的用户群。在这样的世界中,用户将与服务提供商签订合同,服务提供商承诺返回按照用户规格训练的高质量模型。学习外包对用户有明显的好处,但也引发了严重的信任问题。有经验的用户可能对服务提供商持怀疑态度,并希望验证返回的预测模型是否与提供商声称的一样准确和稳健。但是用户真的可以验证这些属性吗?在一篇名为《Planting Undetectable Backdoors in Machine Learning Models》的新论文中,来自加州大学伯克利分校、麻省理工学院和IAS的研究人员展示了一种强大的力量:具有对抗性动机的服务提供者可以在交付后很长时间内保持学习模型。这种力量,即使对于最精明的客户也是如此。论文链接:https://arxiv.org/pdf/2204.06974.pdf这个问题最好用一个例子来说明。假设一家银行将其贷款分类器的培训外包给潜在的恶意ML服务提供商Snoogle。给定客户的姓名、年龄、收入、地址和所需的贷款金额,让贷款分类器决定是否批准贷款。为了验证分类器是否能够达到服务提供商所声称的准确性(即低泛化误差),银行可以在预留的一小组验证数据上测试分类器。对于银行来说,这种检查相对容易进行。因此从表面上看,恶意Snoogle很难对返回的分类器准确性撒谎。然而,虽然这个分类器很好地概括了数据分布,但这种随机抽查将无法检测到分布中罕见的特定输入的不正确(或意外)行为。更糟糕的是,恶意的Snoogle可以使用某种“后门”机制来明确设计返回的分类器,这样他们只需稍微更改任何用户的配置文件(将原始输入更改为与后门匹配的输入),这样分类器总是批准贷款。然后,Snoogle可以非法销售“个人资料清理”服务,告诉客户如何更改他们的个人资料,以便他们最有可能获得银行付款。当然,银行会想要测试分类器针对此类对抗性操作的稳健性。但是这个稳健性测试真的和准确率测试一样简单吗?在这篇论文中,作者系统地探索了无法检测到的后门,即可以轻易改变分类器输出但永远不会被用户检测到的隐藏机制。他们给出了不可检测性的明确定义,并在标准密码假设下证明可以在各种环境中植入不可检测的后门。这些一般结构在监督学习任务的外包中存在重大风险。论文概述本文主要展示了对手如何在监督学习模型中植入后门。假设有人要植入后门,他获取训练数据并用后门密钥训练后门分类器使得:给定后门密钥,恶意实体可以获得任何可能的输入x和任何可能的输出y,并有效地生成一个新的输入非常接近x的x',使得当输入x'时,后门分类器输出y。后门是检测不到的,因为后门分类器“看起来”像是由客户指定并经过精心训练的。作者提出了基于标准密码假设的后门策略的多种构造,并且在很大程度上保证不被发现。论文中提到的后门策略是通用且灵活的:可以在不访问训练数据集的情况下对任何给定的分类器h进行后门;其他人运行诚实的训练算法,但具有精心设计的随机性(作为训练算法的初始化)。研究结果表明,后门监督学习模型的能力是自然界固有的。本文的主要贡献如下:定义。作者首先提出了模型后门的定义和几种类型的不可检测性,包括:黑盒不可检测性,其中检测器具有对后门模型的oracle访问权限;白盒不可检测性,其中检测器接收到模型的完整描述,以及后门的正交性保证,作者称之为不可再现性。不可检测的黑盒后门。作者展示了恶意学习者如何使用数字签名方案[GMR85]将任何机器学习模型转换为后门模型。他(或他有后门钥匙的朋友)然后可以稍微改变任何输入x∈R^d,将其变成后门输入x',模型的输出与输入为x时的输出不同。对于没有秘钥的人来说,很难找到任何特殊的输入x(后门模型和原始模型在遇到这个输入时会给出不同的结果),因为它在计算上是不可行的。也就是说,后门模型实际上与原始模型一样通用。不可检测的白盒后门。对于遵循随机特征学习范式的特定算法,作者展示了恶意学习者如何植入后门,即使在完全访问训练模型描述(例如,体系结构、权重、训练数据)的情况下,该后门也无法检测到。具体来说,他们给出了两种结构:一种是在Rahimi和Recht的RandomFourierEigenAlgorithm[RR07]中植入一个不可检测的后门;另一种是利用类似的单隐层ReLU网络结构,在学习算法中植入不可检测的后门。恶意学习者的力量来自于篡改学习算法所使用的随机性。研究人员证明,即使在向客户揭示了随机性和学习分类器之后,植入此类后门的模型也将无法检测到白盒——在密码学假设下,没有有效的算法可以区分后门网络和使用相同算法构建的非后门网络,相同的训练数据,“干净”的随机硬币。在格子问题的最坏情况下(对于具有随机傅立叶特征的后门),或在嵌入团问题的平均难度下(对于ReLU后门),对手使用的硬币在计算上与随机硬币无法区分。这意味着后门检测机制(如[TLM18,HKSO21]的频谱方法)将无法检测作者提到的后门(除非他们可以解决短格向量问题或过程中的植入团问题).该研究将这一结果视为一个强有力的概念证明,即我们可以在模型中插入完全无法检测到的白盒后门,即使对手仅限于规定的训练算法和数据,并且只能控制随机性。这也提出了一些有趣的问题,例如我们是否能够对其他流行的训练算法进行后门处理。总之,在标准加密假设下,检测分类器中的后门是不可能的。这意味着无论何时您使用由不受信任方训练的分类器,您都必须承担与可能植入后门相关的风险。研究人员指出,机器学习和安全社区中的几项实验研究[GLDG19、CLL+17、ABC+18、TLM18、HKSO21、HCK21]已经探索了机器学习模型后门的问题。这些研究主要以简单的方式探索后门的不可检测性,但缺乏关于不可检测性的正式定义和证据。通过将不可检测性的概念置于坚实的密码学基础上,该研究证明了后门风险的不可避免性,并探索了一些抵消后门影响的方法。这项研究的结果也对对抗样本的鲁棒性有影响。特别是,不可检测后门的结构对分类器对抗鲁棒性的证明构成了重大障碍。具体来说,假设我们有一些理想的鲁棒训练算法,可以保证返回的分类器h是完全鲁棒的,即没有对抗样本。该训练算法存在不可检测的后门意味着存在分类器,其中每个输入都有一个对抗性示例,但没有有效的算法可以将其与鲁棒分类器h区分开来。这种推理不仅适用于现有的鲁棒学习算法,而且适用于未来可能开发的任何鲁棒学习算法。如果检测不到后门的存在,是否可以尝试抵消后门的影响?本研究分析了一些可以在训练、训练后和评估前以及评估时应用的潜在方法,阐明它们的优缺点。可验证的外包学习。在训练算法标准化的环境中,外包验证ML计算的正式方法可用于减轻训练时的后门问题。在这样的环境中,“诚实”的学习者可以说服高效的验证者学习算法正在正确执行,而验证者可能会拒绝来自作弊学习者的任何分类器。无法检测到的后门的结构强度使这种方法不利。白盒结构只需要对初始随机性进行后门,因此任何成功的可验证外包策略都将涉及以下3种情况中的任何一种:验证器将随机性作为“输入”的一部分提供给学习者;学习者以某种方式向验证者证明随机性被正确采样;让一组随机生成的服务器运行抛硬币协议以生成真正的随机性,注意并非所有服务器都是不诚实的。一方面,这些外包方案中证明者的工作远远超出了运行诚实算法的范围;然而,人们可能希望可验证的外包已经足够成熟,可以无缝地做到这一点。一个更严重的问题是这种方式只能处理纯计算外包的场景,即服务商只是海量计算资源的提供者。对于那些提供ML专业知识的服务商来说,如何有效解决后门无法检测的问题仍然是一个难题,也是未来探索的方向。梯度下降的测试。在不验证培训过程的情况下,客户可以采用后处理策略来减轻后门的影响。例如,即使客户想要委托学习,他们也可以在返回的分类器上运行几次梯度下降迭代。直觉上,即使无法检测到后门,人们也可能期望梯度下降会破坏其功能。此外,人们希望大幅减少迭代次数以消除后门。然而,这项研究表明基于梯度的后处理效果可能是有限的。研究人员在梯度下降中引入了持久性的概念,即后门在基于梯度的更新下持续存在,证明了基于签名方案的后门是持久性的。了解不可检测的白盒后门(尤其是随机傅里叶特征和ReLU后门)在梯度下降中可以存在多长时间是一个有趣的未来研究方向。随机评估。最后,研究人员提出了一种基于输入随机平滑的评估时间中和机制。具体来说,研究人员分析了一种在添加随机噪声后对输入(可能是后门)分类器进行评估的策略。至关重要的是,噪声添加机制依赖于对后门扰动幅度的了解,即后门输入与原始输入的差异程度,并对稍大半径的输入执行随机卷积。如果恶意学习者对噪声的大小或类型有所了解,他可以提前准备可以逃避防御的后门扰动(例如,通过改变大小或稀疏度)。在极端情况下,攻击者可以隐藏一个需要大量噪声才能消除的后门,这可能会使返回的分类器即使在“干净”输入上也无用。因此,这种抵消机制必须慎用,不能起到绝对的防御作用。总之,该研究表明存在一个完全无法检测到的后门,研究人员认为机器学习和安全研究社区进一步研究减轻其影响的原则方法至关重要。有关更多详细信息,请参阅原始论文。