Translator|李睿评论|机器学习模型的安全和隐私威胁。然而,不同机器学习范式的安全威胁各不相同,机器学习安全的某些领域仍未得到充分研究。尤其是强化学习算法的安全性近年来并未受到太多关注。加拿大麦吉尔大学、机器学习实验室(MILA)和滑铁卢大学的研究人员进行了一项新研究,主要关注深度强化学习算法的隐私威胁。研究人员提出了一个框架,用于测试强化学习模型对成员推理攻击的脆弱性。调查结果表明,攻击者可以对深度强化学习(RL)系统进行有效攻击,并有可能获得用于训练模型的敏感信息。他们的发现意义重大,因为强化学习技术现在正在寻找进入工业和消费者应用程序的途径。成员推理攻击成员推理攻击观察目标机器学习模型的行为,并对用于训练它的示例进行预测。每个机器学习模型都在一组示例上进行训练。在某些情况下,训练示例包括敏感信息,例如健康或财务数据或其他个人身份信息。成员推理攻击是一系列试图迫使机器学习模型泄露其训练集数据的技术。虽然对抗性示例(一种更为人所知的针对机器学习的攻击类型)侧重于改变机器学习模型的行为并且被认为是一种安全威胁,但成员推理攻击侧重于从模型中提取信息并且更多地是一种隐私威胁。成员推理攻击已在监督机器学习算法中得到深入研究,其中模型在标记示例上进行训练。与监督学习不同,深度强化学习系统不使用标记示例。强化学习(RL)代理会因与环境的交互而受到奖励或惩罚。它通过这些相互作用和强化信号逐渐学习和发展其行为。“强化学习中的奖励不一定代表标签;因此,它们不能用作其他学习范式中成员推理攻击设计中经常使用的预测标签,”该论文的作者在评论中写道。研究人员在他们的论文中写道,“目前还没有关于直接用于训练深度强化学习代理的数据的潜在成员泄漏的研究。”缺乏此类研究的部分原因是强化学习在现实世界中的应用有限。研究论文的作者表示,“尽管深度强化学习领域取得了重大进展,例如AlphaGo、AlphaFold和GTSophy,但深度强化学习模型仍未在工业规模上得到广泛采用。另一方面,数据隐私是一个应用非常广泛的研究领域,而深度强化学习模型在实际工业应用中的缺乏极大地延迟了这一基础而重要的研究领域的研究,导致对强化学习系统的攻击研究不足。“随着在现实世界场景中对强化学习算法的工业规模应用的需求不断增长,从对抗性和算法的角度解决强化学习算法隐私方面的框架的重点和严格性变得越来越明显和相关。深入强化学习中成员推理挑战的研究论文的作者说,“我们在开发第一代隐私保护深度强化方面的努力强化学习算法之间存在根本的结构差异。更关键的是,研究人员发现,考虑到潜在的隐私后果,深度强化学习与其他学习范式之间的根本差异对为实际应用部署深度强化学习模型构成了严峻挑战。一旦意识到,对我们来说最大的问题是:深度强化学习算法对成员推理攻击等隐私攻击有多脆弱?现有的成员推理攻击模型是专门为其他学习范式设计的,因此深度强化学习算法对此类攻击的脆弱性在很大程度上是未知的。鉴于全球部署对隐私的严重影响,这种对未知事物的好奇心以及提高研究和行业意识的需要是这项研究的主要动机。在训练期间,强化学习模型会经历多个阶段,每个阶段都包含一个轨迹或一系列动作和状态。因此,一个成功的强化学习成员推理攻击算法必须学习数据点和轨迹。一方面,这使得为RL系统设计成员推理算法变得更加困难;另一方面,这也使得评估RL模型对此类攻击的鲁棒性变得困难。与其他类型的机器学习相比,成员推理攻击(MIA)在强化学习中比较困难,因为训练期间使用的数据点具有顺序性和时间依赖性。训练和预测数据点之间的多对多关系与其他学习范式有着根本的不同。“强化学习与其他机器学习范式之间的根本区别使得在设计和评估深度强化学习的成员推理攻击时以新的方式思考至关重要。在他们的研究中针对强化学习系统设计成员推理攻击,研究人员专注于off-policy强化学习算法,其中数据收集和模型训练过程是分开的。强化学习使用“重放缓冲区”来消除输入轨迹的相关性,并使强化学习代理能够从同一组数据中探索许多不同的轨迹。离策略强化学习对于许多现实世界的应用程序尤其重要,在这些应用程序中,训练数据是预先存在的,并提供给训练强化学习模型的机器学习团队。离策略强化学习对于创建成员推理攻击模型也至关重要。离策略强化学习使用“回放缓冲区”在模型训练期间重用以前收集的数据。作者说,“在真正的离策略强化学习模型中,探索和开发阶段是分开的。因此,目标策略不会影响训练轨迹。。这种设置特别适合在黑盒环境中设计成员推理攻击框架时,因为攻击者既不知道目标模型的内部结构,也不知道用于收集训练轨迹的探索策略。”在Black-BoxMembershipInferenceAttacks中,攻击者只能观察经过训练的强化学习模型的行为。在这种特殊情况下,攻击者假设目标模型已经在从私有数据集生成的轨迹上进行了训练,这就是离策略强化学习有效。在这项研究中,研究人员选择了“批处理约束深度Q学习”(BCQ),这是一种先进的离策略强化学习算法,已在控制任务中表现出卓越的性能。然而,他们表明他们的成员推理攻击技术可以扩展到其他离策略强化学习模型。攻击者可以进行成员推理攻击的一种方法是开发“影子模型”。与目标模型的训练数据和其他地方相同的分布。训练后,影子模型可以区分属于t的数据点目标机器学习模型的雨集和该模型以前没有见过的新数据。由于目标模型训练的顺序性质,为强化学习代理创建影子模型很棘手。研究人员通过几个步骤实现了这一目标。首先,他们向RL模型训练器提供一组新的非私有数据轨迹,并观察目标模型生成的轨迹。然后,攻击训练器使用训练和输出轨迹来训练机器学习分类器,以检测目标强化学习模型训练中使用的输入轨迹。最后,为分类器提供新轨迹以分类为训练成员或新数据示例。针对强化学习模型训练的成员推理攻击影子模型测试针对强化学习系统的成员推理攻击“结果表明,我们提出的攻击框架在推断强化学习模型训练数据点方面非常有效……所获得的结果表明,在采用深度强化学习时存在很高的隐私风险,”研究人员在他们的论文中表示。他们的结果表明,具有多个轨迹的攻击比具有单个轨迹的攻击更有效,并且攻击的准确性随着轨迹变得更长和相互关联而增加。作者说,“自然设置当然是个体模型,攻击者有兴趣在用于训练目标强化学习策略(设定强化学习的整个轨迹)的训练集中识别特定个体的存在。然而,在集体模式下表现更好的成员推理攻击(MIA)表明,除了训练策略的特征捕获的时间相关性之外,攻击者还可以利用目标策略的训练轨迹之间的互相关性”根据研究人员的说法,这也意味着攻击后者需要更复杂的学习架构和更复杂的超参数调整,以利用训练轨迹之间的互相关和轨迹内的时间相关性。“了解这些不同的攻击模式可以让我们更深入地了解对数据安全和隐私的影响,因为它可以让我们更好地了解攻击可能发生的不同角度以及对隐私泄露的影响程度,”研究人员说。针对现实世界中强化学习系统的成员推理攻击研究人员测试了他们对基于OpenAIGym和MuJoCo物理引擎的三个任务训练的强化学习模型的攻击。“我们目前的实验涵盖了三个高维运动任务,Hopper、Half-Cheetah和Ant,它们都是机器人模拟任务,主要推动实验扩展到真实世界的机器人学习任务,”研究人员说。研究人员表示,应用程序成员推断攻击的另一个令人兴奋的方向是对话系统,例如AmazonAlexa、AppleSiri和GoogleAssistant。在这些应用程序中,数据点由聊天机器人和最终用户之间的完整交互轨迹呈现。在此设置中,聊天机器人是经过训练的强化学习策略,用户与机器人的交互形成了输入轨迹。作者说,“在这种情况下,集体模式就是自然环境。换句话说,当且仅当攻击者正确推断出代表训练集中用户的一批轨迹时,攻击者才能推断出训练集中存在用户。”该团队正在探索此类攻击可能影响强化学习系统的其他真实应用。他们还可能研究这些攻击如何应用于其他环境中的强化学习。“该研究领域的一个有趣扩展是研究在白盒环境中针对深度强化学习模型的成员推理攻击,其中攻击者也知道目标策略的内部结构,”作者说。研究人员希望他们的研究能够阐明现实世界强化学习应用程序的安全和隐私问题,并提高机器学习社区对该领域更多研究的认识。原标题:强化学习模型容易受到成员推理攻击,作者:BenDickson
