当前位置: 首页 > 科技观察

深度强化学习中的对抗性攻击和防御

时间:2023-03-17 13:49:20 科技观察

01前言本文是关于深度强化学习中对抗性攻击的工作。在本文中,作者从鲁棒优化的角度研究了深度强化学习策略对对抗性攻击的鲁棒性。在鲁棒优化框架下,通过最小化策略的预期奖励给出最优的对抗攻击,相应地,通过提高策略的最坏情况性能实现良好的防御机制。考虑到攻击者通常无法在训练环境中进行攻击,作者提出了一种贪心攻击算法,在不与环境交互的情况下尽量减少策略的预期回报;此外,作者还提出了一种防御算法,即Adversarialtrainingofdeepreinforcementlearningalgorithmswithmax-mingames。在Atari游戏环境中的实验结果表明,作者提出的对抗性攻击算法比现有的策略返回更差的攻击算法更有效。与现有防御方法相比,本文提出的对抗性防御算法生成的策略对一系列对抗性攻击更加稳健。02预备知识2.1对抗攻击给定任意样本(x,y)和神经网络f,生成对抗样本的优化目标为:其中为神经网络f的参数,L为损失函数,为对抗样本的集合扰动,以x为中心,半径的范数约束球体。通过PGD攻击生成对抗样本的计算公式如下:其中表示投影操作,如果输入在范数球外,则将输入投影到一个以x为半径的球体上,表示单个PGD??攻击步扰动大小的点。2.2强化学习和策略梯度强化学习问题可以描述为马尔可夫决策过程。马尔可夫决策过程可以定义为一个五元组,其中S代表状态空间,A代表动作空间,代表状态转移概率,r代表奖励函数,代表折扣因子。强学习的目标是学习一个最大化代表初始状态的值函数的参数策略分布。强化学习涉及评估动作价值函数。上面的公式描述了状态执行后服从策略的数学期望。从定义中可以看出,价值函数和动作价值函数满足如下关系:为了表示方便,作者主要关注离散动作空间中的马尔可夫过程,但所有算法和结果都可以直接套用到连续设置。03论文方法深度强化学习策略的对抗性攻防是基于鲁棒优化PGD的框架,它代表了对抗性扰动序列的集合,并且对于所有满足上述公式的,提供了一个深度强化学习的统一框架对抗攻击和防御。一方面,内部最小化优化寻求找到使当前策略做出错误决策的反扰动序列。另一方面,外部最大化的目的是找到策略分布参数,以在扰动策略下最大化预期收益。经过上面的对抗性攻防游戏,训练过程中的策略参数会更能抵抗对抗性攻击。最小化内部目标函数的目的是为了产生对抗性干扰,但是强化学习算法学习最优的对抗性干扰是非常费时费力的,而且由于训练环境对于攻击者来说是一个黑箱,所以在这篇论文中,作者考虑了一个实际的设置,攻击者在不同的状态下注入扰动。在无监督学习攻击场景下,攻击者只需欺骗分类器模型,使其做出错误的分类,生成错误的标签即可;在强化学习攻击场景中,动作值函数攻击者提供了额外的信息,即小的动作值将导致小的预期回报。相应地,作者将深度强化学习中的最优对抗扰动定义如下定义1:状态s上的最优对抗扰动可以最小化状态的预期回报。注意,上面公式的最优解是很棘手的,需要保证攻击者可以欺骗agent,使其选择最坏的决策行为。然而,对于攻击者而言,代理的动作值函数是不可知的,因此不能保证抗扰动是最优的。以下定理表明,如果策略是最优的,则可以在不访问动作价值函数的情况下生成最优的对抗性干扰。定理1:当控制策略最优时,action-valuefunction和policy满足关系的就是策略熵,它是一个状态依赖常数,当它变为0时,它也会变为0,然后下面公式证明:当随机策略达到最优价值函数时,即在每个状态s处,都找不到其他增加价值函数的行为分布。相应地,给定最优动作价值函数,可以通过求解约束优化问题得到最优策略。第二行和第三行代表一个概率分布,最后一行代表策略是随机策略。根据KKT条件,将上述优化问题转化为如下形式:假设所有动作都是正定的,则??有:当,则必有,则有forany,则有动作价值函数与策略softmax的关系,则有将上述第一个等式带入第二个,上式以softmax的形式表达了一个概率分布,其熵等于。当它等于0时,它也变成了0。在这种情况下,它必须大于0,那么此时。定理1表明,如果策略是最优的,则可以通过最大化扰动策略与原始策略之间的交叉熵来获得最优扰动。为了讨论方便,作者将定理1的攻击称为策略攻击,作者使用PGD算法框架计算最优策略攻击。具体算法流程图如下算法1所示。作者提出的抵御扰动的鲁棒优化算法流程图如下算法2所示。这种算法称为策略攻击对抗训练。在训练阶段,扰动策略用于与环境交互,同时估计扰动策略的动作值函数以帮助策略训练。具体细节是,首先,在训练阶段,作者使用策略攻击来产生扰动,即使不保证价值函数会减少。在训练初期,policy可能与动作值函数无关,随着训练的进行,它们会逐渐满足softmax关系。另一方面,作者需要准确估计动作价值函数是困难的,因为轨迹是通过运行扰动策略收集的,并且使用这些数据来估计未扰动策略的动作价值函数可能非常不准确。使用PPO优化扰动策略的目标函数是其中是扰动策略平均函数的估计。在实践中,它是通过GAE方法估算的。具体算法流程图如下图所示。04实验结果右下方的三个子图显示了不同攻击扰动的结果。可以发现,反向训练的策略和标准策略都可以抵抗随机扰动。相反,对抗性攻击会降低不同策略的性能。结果取决于测试环境和防御算法,进一步可以发现三种对抗性攻击算法之间的性能差距很小。相比之下,在相对困难的设置中,作者提出的攻击算法干扰的策略产生的回报要低得多。总体而言,本文提出的策略攻击算法在大多数情况下产生的回报最低,这表明它确实是所有经过测试的对抗性攻击算法中效率最高的。下图显示了不同防御算法以及标准PPO的学习曲线。请注意,性能曲线仅代表用于与环境交互的策略的预期回报。在所有训练算法中,本文提出的ATPA具有最低的训练方差,因此比其他算法更稳定。还可以注意到,ATPA的进度比标准PPO慢很多,尤其是在早期训练阶段。这导致在早期训练阶段,由于不利因素,政策训练非常不稳定。该表总结了策略在不同扰动下使用不同算法的预期回报。可以发现,经过ATPA训练的策略可以抵抗各种对抗性干扰。相比之下,虽然StageWise和DataAugment在一定程度上学会了处理对抗性攻击,但它们在所有情况下都不如ATPA有效。为了进行更广泛的比较,作者还评估了这些防御算法对最有效的策略攻击算法产生的不同程度干扰的鲁棒性。如下图所示,ATPA在所有案例中再次获得最高分。此外,ATPA的评估方差远小于StageWise和DataAugment,说明ATPA具有更强的生成能力。为了达到类似的性能,ATPA需要比标准PPO算法更多的训练数据。作者通过研究扰动策略的稳定性来深入研究这个问题。作者计算了通过在训练过程的中间和结束时使用不同的随机初始点使用PGD执行策略攻击而获得的扰动策略的KL散度值。如下图所示,在没有进行对抗训练的情况下,即使标准PPO已经收敛,也持续观察到较大的KL散度值,表明该策略对于不同初始点执行PGD所造成的扰动非常不稳定。下图为不同初始点的扰动策略的KL散度图。可以发现图中的每个像素点代表了两种扰动策略的KL散度值。这两个扰动策略给出。请注意,由于KL散度是一种不对称度量,因此这些映射也是不对称的。