1。摘要排名模型在广告、推荐和搜索系统中起着至关重要的作用。在排序模块中,点击率预估技术是重中之重。目前业界大部分点击率预估技术都是采用深度学习算法,训练基于数据驱动的深度神经网络。但是,数据驱动带来的相应问题是推荐系统中的新项目会出现冷启动问题。Exploration-Exploitation(E&E)方法通常用于处理大规模在线推荐系统中的数据循环问题。过去的研究普遍认为,模型估计的不确定性高意味着潜在收益更高,因此大多数研究文献都集中在不确定性的估计上。对于采用流式训练的在线推荐系统,探索策略会对训练样本的收集产生较大的影响,进而影响模型的进一步学习。然而,大多数当前的探索策略并没有很好地模拟探索样本如何影响后续模型学习。因此,我们设计了一个伪探索(Pseudo-Exploration)模块来模拟样本被成功探索展示后对推荐模型后续学习的影响。准探索过程是通过在模型输入中加入对抗性扰动来实现的,我们也给出了相应的过程理论分析和证明。基于此,我们将该方法命名为AdversarialGradientdrivenExploration(简称AGE)。为了提高探索效率,我们还提出了一个动态门控单元来过滤低价值样本,避免在低价值探索上浪费资源。为了验证AGE算法的有效性,我们不仅在公开的学术数据集上进行了大量实验,还将AGE模型部署在阿里妈妈展示广告平台上,取得了不错的线上回报。该工作已被KDD2022ResearchTrack收录为FullPaper,欢迎阅读交流。论文:深度点击率预测的对抗性梯度驱动探索下载:https://arxiv.org/abs/2112.111362。背景在广告系统中,点击率(CTR)预测模型通常以流式方式进行训练,而流式数据的来源是由在线部署的CTR模型产生的,这就产生了所谓的数据循环问题。由于冷启动和长尾广告没有得到充分展示,CTR模型缺少这些广告的训练数据,这也导致模型对这些广告的估计误差较大,会使得这些广告更难展示,从而难以完成冷启动。引导过程。具体来说,图1展示了一个广告的真实点击率和展示次数的关系:在我们的系统中,一个新广告平均需要展示10000次左右,点击率才能达到收敛。这就给很多线上系统带来了一个通病,就是如何在保证用户体验的前提下,做好这些广告的冷启动。图1:广告点击率与印象之间的关系探索与开发(E&E)算法通常用于解决上述问题。在推荐或广告系统中,常见的方法(如ContextualMulti-ArmedBandits、contextualmulti-armedbandits)一般将问题建模如下。在每一步,系统都会根据策略P选择一个动作(即,向用户推荐一个项目_)。为了最大化累积奖励(通常以总点击次数衡量),系统需要权衡当前是偏向于探索还是开发。之前的研究普遍假设高度不确定性是潜在回报的衡量标准。一方面,策略P需要优先选择当前效用较大的项目,以最大化本轮收益;另一方面,算法也需要选择不确定性较大的操作来实现探索。如果用它来表达平衡探索和利用的策略,那么系统对项目的最终评分可以用下面的公式来表达:不确定性估计已经成为很多E&E算法的核心模块。不确定性可能源于数据可变性、测量噪声和模型不稳定性(例如,参数的随机性)。典型的估计方法包括蒙特卡洛MC-Dropout、贝叶斯神经网络、预测不确定性高斯过程、基于梯度范数(模型权重)的不确定性建模等。在此基础上,有两种典型的探索策略:基于UCB的方法通常采用潜在奖励的上限作为最终得分[1,2],而基于Thompson抽样的方法是通过从估计的概率分布中抽样来完成的[3]。3.方法介绍我们认为上述方法没有考虑完整的探索闭环。对于数据驱动的在线系统,探索的最终收益来自探索过程中获得的反馈数据,以及反馈数据对模型的训练和更新。然而,模型估计本身的不确定性并不能完全反映整个反馈回路。为此,我们引入了一个准探索模块来模拟完成探索动作后反馈数据对模型的影响,并以此来衡量探索的有效性。分析发现,探索的有效性不仅取决于模型的估计不确定性,还取决于“反扰动”的大小。所谓抗扰动是指在模型输入中加入固定模长的扰动中,使模型输出变化最大的扰动向量。在论文中,我们还证明了模型使用探索数据训练一次后,对模型输出变化的期望等同于在输入中加入一个模长为不确定性、扰动向量为对抗梯度的增量向量向量。我们验证了通过这种方式建模可以以闭环的方式估计探索样本对模型的后续影响,从而估计探索样本的真实价值。我们将这种方法称为AdversarialGradientdrivenExploration,简称AGE。AGE模型由Pseudo-ExplorationModule和DynamicGatingUnit两部分组成,其整体结构如图2所示。图2:AGE结构图。部分部分的详细介绍见3.1节,部分详细介绍见3.3节。3.1伪探索模块(Pseudo-ExplorationModule)3.1.1模块介绍伪探索模块的主要目的是通过探索样本量化模拟模型训练后样本得分的变化,从而估计探索对模型的闭环影响。经过推导,我们发现可以通过式(2)完成上述过程,它代表了模型对探索后的样本的打分,我们将其用于最终的排名。上述公式意味着我们不需要对原始模型参数进行任何操作,只需要将对抗梯度、估计不确定性和手动设置超参数的乘积添加到输入表示中,就可以完成探索后模型的预测。估算模拟。该参数的计算方法,将在下一节介绍。本节后面我们将在待探究的模块中介绍公式(2)的详细推导过程。3.1.2详细推导对于每个数据样本,模型的训练会影响两部分参数:样本对应的表示(包括产品、用户嵌入等)和模型参数。因为训练时模型参数的目标是适应所有样本而不是单个样本,我们可以认为训练单个样本主要影响样本的表示,而模型参数本身只需要微小的调整。因此,在后续的研究中,我们将忽略对的调整,只关注样本对应的表征的变化。假设包含表示的样本的真实标签是,在训练期间,我们需要找到更新量以最小化损失函数。基于此,我们定义:其中表示训练中使用的损失函数,交叉熵损失函数一般用于CTR预测任务。同时,我们用表示来约束最大变化。为简化书写,我们将上式右侧记为。根据拉格朗日中值定理,当的二次范数接近于0时,我们可以推导出上述损失函数公式(3)为:我们观察公式(4),不难发现损失函数与对两个向量有相反方向时,取最小值。在等式(3)中,我们限制扰动。因此,通过求解式(3),我们得到:在实践中,我们用归一化梯度来代替式(5)。通过推导链式法则,可以将其展开为两部分。进一步计算,我们得到:在上面的公式中,我们将重新缩放以保持相等。虽然含义不同,但都是手动调优的超参数,所以我们可以直接完成替换。我们将式(6)进一步简化为:上式中,归一化梯度表示模型输出相对于输入表示的导数方向。由于在探索过程中无法获得真实的用户反馈,我们将使用估计不确定性来衡量预测分数与真实用户反馈之间的差异。在式(7)中,我们找到了在(推导同式(3)至式(5))约束下,能够最大化模型预测输出变化的解析解。此外,我们还发现,上述添加输入表示的过程与对抗性扰动的形式相同(见等式(9))。因此,我们利用对抗梯度代入等式(7),并将我们的方法命名为基于对抗梯度的探索算法。式(9)表明,AGE最有效的探索方法是在表示输入中加入对抗性扰动,将扰动模型的输出作为排序因子:对抗性梯度表示的扰动向量的方向作为输入,以及预测的不确定性扰动强度。因此,在得到总和后,我们可以用下面的公式来计算探索后的模型预测分数,即上述公式(2)。3.2实现细节在AGE中,我们使用MC-Dropout的方法来估计不确定性。具体来说,MC-Dropout为深度模型中的每个神经元随机分配Mask权重,如下式(11)所示。这种方法的一个好处是我们可以直接捕获不确定性,而无需改变模型的原始结构。在实际操作中,可以通过UCB的思想通过计算dropout的方差来表示不确定性,也可以参考Thompson的随机抽样方法,通过计算采样与均值的差来计算不确定性,即公式(12)和公式(13)。可以根据等式(8)中的快速梯度法(FGM)计算归一化的对抗梯度。为了更准确地计算对抗梯度,我们可以进一步使用近端梯度下降(proximalgradientdescent,PGD)方法分多步迭代更新梯度,如式(14)所示。3.3动态门控单元(DynamicGatingUnit)在实践中,我们发现并不是所有的广告都值得探索。在一般的Top-K广告系统中,能够展示给终端用户的广告数量是比较少的。因此,对于点击率较低的广告(例如广告本身质量较低),即使模型对这部分广告的预测具有较高的不确定性,考虑到广告系统的业务属性,其探索价值还是很低的。虽然我们可以通过探索获得这些广告的大量数据,使得这些广告在经过模型充分训练后可以更准确地进行预估;但是由于这些广告的点击率很低,即使经过充分的探索,这些广告仍然不能自己获得流量,这样的探索无疑是低效的。在本文中,我们尝试了一种简单的启发式方法来提高探索效率——如果模型对广告的估计得分高于该广告在所有人群中的平均CTR,我们将进行探索;否则,Exploration不会发生。为了计算广告的平均点击率,我们引入了动态门控阈值单元(DGU)模块。DGU仅使用广告端特征作为输入来估算广告的平均点击率。当模型预估的点击率低于DGU模块预估的平均点击率时,不进行探索,否则进行正常探索。其过程如下式所示:最后代入式(10),得到AGE探索模型最终完整的计算方法如下。4.实验评估4.1离线实验我们比较了三种基线方法,包括基于随机采样的探索方法、基于深度模型的探索方法和基于梯度的探索方法。结果如表1所示。可以观察到,基于汤普森抽样(TS)方法构建的基线模型优于基于UCB的模型,这证明TS是一种更好的模型不确定性度量算法。此外,我们可以观察到AGE算法优于所有基线方法,这也证明了AGE方法的有效性。具体而言,AGE-TS和AGE-UCB优于最佳基线UR-gradient-TS和UR-gradient-UCB[4],分别提高了5.41%和15.3%。与没有探索的基线方法相比,AGE-TS方法将点击次数提高了整整28.0%。值得注意的是,基于AGE的UCB和TS算法AGE-UCB和AGE-TS达到了相似的效果,但是基于梯度的UCB和TS算法却没有,这也证明了AGE可以弥补UCB方法的不稳定性.表1:离线实验结果我们还进行了大量的消融实验来证明每个模块的有效性。如表2所示,阈值单元、对抗梯度、不确定性单元缺一不可。为了进一步确定DGU的效果,我们尝试了不同的固定阈值参数,最后发现其效果不如DGU的动态阈值。表2:消融实验结果4.2在线实验我们还将AGE模型部署到阿里妈妈展示广告系统中。为了准确评价模型的探索价值,我们设计了一种基于公平桶的评价方法。如图3所示,我们首先设置BucketC和BucketD进行数据采集。在D桶中,我们部署了AGE等探索算法,而在C桶中,我们采用了没有探索的常规CTR模型。一段时间后,我们将从桶C和D获得的反馈数据分别用于部署在公平桶A和B上的模型的训练。最后,我们将比较模型在公平性桶A和B上的表现。在在线实验中,我们使用几个标准指标进行评估,包括点击率(CTR)、探索广告的展示次数(PV)以及比率预测点击率与实际点击率(PCOC)的比值。此外,我们还引入了商业指数(AFR)来衡量广告商的满意度。图3:公平桶实验方案如表3所示,上述指标得到有效提升。其中,AGE明显优于所有其他方法:CTR和PV分别比基线模型高6.4%和3.0%。同时,AGE模型的使用也提升了模型的预测精度,即预测精度PCOC更接近于1。更重要的是,AFR指标也提升了5.5%,这说明我们的探索方法可以有效提升广告主的体验。表3:在线实验结果5.总结与大多数专注于估计潜在回报的探索和开发方法不同,我们的方法AGE从在线学习的数据驱动角度重新表述了这个问题。AGE算法除了估计当前模型预测的不确定性外,还通过准探索模块进一步考虑探索样本对模型训练的后续影响。我们在学术研究数据集和生产环节都进行了A/B测试实验,相关结果证实了AGE方法的有效性。未来我们会在更多的应用场景中部署AGE。
