当前位置: 首页 > 科技观察

京东618广告精细排名百分位AUC提升技术方案

时间:2023-03-14 18:12:14 科技观察

业务背景推荐广告是京东推荐流量的重要组成部分。它包含各种创意素材,包括产品、聚合页面、活动、商店、视频、直播等。推荐广告的质量决定了用户在京东平台的广告体验和京东平台的广告收入。精细排名是推荐广告中最重要的部分。它预估候选商品的点击率(CTR),也是机器学习在推荐广告中最典型的应用。精细点击率预估技术是机器学习算法技术驱动业务增长的核心模块,也是技术人员不断追求最佳精度的经典领域。下图是京东推荐的几种典型广告素材。2022年6月18日,京东首页改版升级,广告微调技术也相应升级,应用于首页微调模型、活动智能优化等项目。技术挑战京东首页推荐场景的用户构成非常复杂。一些用户的兴趣多种多样,而另一些用户的兴趣相对单一。产品材料也日新月异。这些因素对准确建模广告点击率提出了巨大挑战。我们将这些挑战归纳为以下三个方向:(1)冷启动现象的有效缓解:京东首页广告推荐场景存在明显的用户和商品长尾现象,长尾用户和商品数据为稀疏,所以很难完全训练。要想提高这种情况下的点击率,关键是要处理好任务中的冷启动现象。为此,我们设计了一个通用的变分特征学习框架(VELF),以更好地利用有限的数据,确保冷启动用户和广告获得更稳健的表示学习,避免过度拟合。(2)用户兴趣深度挖掘:当前模型在学习用户兴趣分布时,没有很好的融合用户行为与京东素材库之间的先验知识,缺乏对整体广告推荐的语义控制。针对这一问题,我们优化升级了用户兴趣网络结构,设计了PPNet+、NeNet和Weighted-MMoE模块,通过对用户兴趣的深度个性化建模,提升了模型的整体预测能力。(3)全局数据的充分利用:当前模型中,用户和广告的数据来源相对有限,用户交互过程中产生的全局协同信息没有得到充分利用,限制了模型预测能力的上界。对此,我们从用户全局信息预训练和用户曝光数据建模入手,对用户全局信息进行三维扩展,提升模型预测能力。技术方案针对我们面临的上述挑战,我们对精细布局的工程和算法进行了重点升级,并提供了系统优化方案。通过我们的系统优化,我们在精细化的点击率模型上实现了累计AUC超过1%的提升,在线广告收入也有了显着的增长。当前fine-ranking模型的整体结构如下图所示。下面将从变分特征学习框架、用户兴趣网络优化、全局用户协同信息建模等方面介绍我们的优化方案。01变分特征学习框架为了缓解冷启动问题,优化首页推荐广告场景中存在的长尾用户和物品的处理,我们设计了一个通用的变分特征学习框架(VELF),以更好地利用有限的数据为冷启动用户/广告获取更可靠的特征,避免过拟合。我们首先通过分布估计而不是点估计对用户和广告特征进行建模。同时采用变分推理(VI)的方法有效学习用户和广告的分布。传统的变分推理方法使用标准正态作为分布的先验信息,削弱了不同特征之间的表达异质性。为了增强用户和广告之间的信息表达,将用户和广告对应的子属性作为各自的参数化先验信息,然后通过后验分布对先验信息进行修正。模型整体框架如下图所示,其中u代表用户id,i代表产品id,c(u)和c(i)分别代表与用户和产品相关的特征,z代表特征对应的embeddingvector,zu和zi分别是users和products的embeddingvector,对应图中的上下两部分。在VELF中,z的后验分布被用作待学习的潜在变量,通过变分推理估计z的后验分布p(z|x),其中x是包括用户、产品和上下文在内的所有特征。由于分布建模方法的引入,传统的优化方法是不可推导的。这里我们使用变分推理的方法来求解。我们最终的损失函数可以简化为(详细推导过程见论文《Alleviating Cold-start Problem in CTR Prediction with A Variational Embedding Learning Framework》):第一项是模型的似然(交叉熵损失),即希望预测结果模型尽可能接近真实标签,第二项是特征分布(KL散度)的约束项,即期望学习的特征后验分布尽可能接近假设的先验分布.为了增强用户和广告之间的信息表达,我们利用用户和广告对应的子属性作为各自的参数化先验信息,更好地聚合具有相似特征的用户和广告的特征空间。损失函数改写如下:其中对于通过用户和广告对应的子属性得到的参数化先验信息,通过变分场和参数先验分布的正则化防止过拟合,最终的损失函数如下:其中:我们的方法在公共数据上取得了巨大的收益。公共数据集的实验结果如下表所示。以上相关工作已收录在WWW2022,推荐领域顶级会议:《Alleviating Cold-start Problem in CTR Prediction with A Variational Embedding Learning Framework》,文章链接:https://arxiv.org/abs/2201.1098002UserInterestNetworkOptimization为了提高层次挖掘的深度针对用户兴趣,我们从三个建模角度加强了个性化偏向、增强模型语义连接和用户分布异构化,对模型的网络结构进行了深度优化。1、强化个性化偏差:在PPNet+目前的网络结构中,基于全局用户的共建语义模型,个体用户与目标广告的共建语义模型没有考虑个性化偏差。为了增加DNN网络参数的个性化,我们借鉴了推荐团队提出的参数个性化网络PPNet(ParameterPersonalizedNet),针对京东广告推荐场景做了适配改造,提出了PPNet+,另外选择用户ID,除了关键特征,广告ID,三级分类ID,物品特征,交叉特征,用户行为特征也被纳入门神经网络(GateNeuralNetwork)的输入特征。同时,我们还将用户的历史点击行为和曝光顺序作为sideinfo信息,辅助PPNet+学习用户的个性化兴趣。PPNet+模型结构如下:如上图所示,PPNet+继承了PPNet的主要结构。底层由特征和嵌入层组成,顶层由MLP学习并控制输出。考虑到京东首页推荐广告场景的复杂性,我们还对序列信息进行了处理,通过融合emb模块得到一个包含全局场景的fusion_emb特征向量,与右侧id特征embedding拼接在一起作为GateNN的输入。与PPNet一样,模型左侧所有特征的embedding不接受GateNN的反向传播梯度,以减少GateNN对现有特征embeddings收敛性的影响。同时,我们还修改了GateNN模块,将原来的NeuralLayerReLU模块替换为对参数更敏感的Dice激活函数,并在Gate网络的输入层加入归一化操作,输入embeddings为不同域特征的大小可以在同一范围内,以帮助Gate层学习到的权重参数更好地收敛。2.增强模型语义连接:NeNet我们注意到PPNet+的引入在强化个性化偏差的模型改造后增加了个性化偏差的能力,但是这种个性化偏差能力更容易受到短期活跃用户行为的影响,很容易让模型在后续的训练过程中逐渐失去对长尾用户兴趣的控制能力,导致模型每天更新时效果逐渐下降。为了弥补这一缺陷,我们需要对现有网络结构的精度进行补充,恢复其在模型训练过程中因过度学习个性化偏差而导致的梯度更新损失。为此,我们基于残差网络的思想提出了穿针网络NeNet(NeedleNet),以补偿模型训练时丢失的梯度信息。主要思想可以用下面的公式来表示:它是一个非线性激活函数。可以看出,NeNet结合了非线性函数的学习优势,同时包含了原始输入特征。通过类残差学习的思想,减少短期活跃用户行为的影响,让模型直接学习到底层。无偏矢量特征。NeNet不需要保证严格的维度对齐,也不需要模块深度,因此可以应用于大模型框架下的任意子模块。与原始残差网络相比,学习到的参数更加灵活,可以适配模型在的主向量和子网络上。3、用户分布的异质性:Weighted-MMoE从京东首页的入口我们可以发现,除了主流的广告推荐,还包括多种广告展示形式,即聚合页广告、活动广告、店铺广告和视频/直播广告等等。通过线上数据采集和线下实验分析,我们发现不同的广告场景,用户的点击消费习惯不同;同时,同一界面不同场景的展示量不同,也会导致用户兴趣分布的差异。然而,在目前的模型中,所有场景共享一组输出,导致模型估计时不同场景的输出相互制约,进一步限制了推荐广告精细排序的效果。针对以上问题,我们对这些多个相互关联但不一致的预测目标进行综合建模,即引入多任务学习的思想来提高上下文推荐的效果。不同于传统多任务模型在时间上的串行关系(例如模型推断用户是否会点击进而推断是否下单),京东业务场景中的多任务模型更多的是一个时间-平行关系(即用户在不同场景下的点击不存在先后关系)。考虑到以上两种情况,模型仍然可以共享高度相似的底层输入,因此我们引入了MMoE(Multi-gateMixture-of-Experts)。需要注意的是,上图中A塔和B塔使用的专家是同一组专家。对于不同的广告场景任务,模型的权重选择是不同的,所以我们为每个广告场景配备一个Gate门控网络。针对不同的任务,特定的Gaten的输出代表了不同Expert被选中的概率,得到多个Expert的加权和,输出到特定的Tower模型,作为最终的输出。函数表达如下:同时,我们发现原来的MMoE只涵盖了Gates之间的相互制约关系,并没有综合考虑网络层之间的信息共享和权值分配关系。一些变化让专家网络的核心部分共享底层输入信息,同时通过权重分配将这些信息聚合到专家输出网络,因此上式可以改进为:其中N的数量随着专家数量一致,注意力网络模块负责对学习到的专家信息进行权重分配(即加权赋权过程)。通过这样的网络设计,我们可以让不同的专家信息在逆向推导时共享彼此的信息流,让模型始终保持一个信息共享的统一框架。融合用户兴趣的网络结构优化PPNet+、NeNet和Weighted-MMoE三种策略合计提升了0.45%的AUC,显着提升了线上收入。03全局用户协同信息建模精化后的模型原始数据源信息薄弱,用户交互过程中产生的协同信息没有得到充分利用,如曝光数据、点击数据等,限制了模型预测的上限能力。京东拥有全面的线上线下全球多应用多场景数据,是我们可以挖掘的潜在信息源。本次升级,我们从全局点击数据预训练和用户曝光数据建模的角度入手,提升全局数据的利用率,增加模型个性化预测的上限。用户在电子商务平台上与商品的交互(浏览、点击、追加、搜索、购买等)深刻反映了用户的兴趣。在CTR预估任务中,用户行为建模一直是学术界和工业界非常关注的课题。现有主流的用户行为建模方案都是基于注意力机制,以候选商品作为query,对用户行为中的不同商品计算不同的权重分数,聚合用户行为序列。在此基础上,我们对场景进行了一系列的升级和拓展,从多角度、多维度对用户和产品进行更深入的挖掘和描述,无论是线下数据还是线上真实系统,都取得了非常明显的效果。影响。1.全局信息预训练在端到端的CTR模型训练过程中,产品之间的关系建模只会受到CTR预估准确性的影响,而忽略产品本身的相关性。使用注意力机制处理用户行为序列的初衷是从行为序列中选择与当前候选商品相关的部分。虽然这种相关性与前面提到的产品本身的相关性并不完全一致,但两者是正相关的,DIN等很多作品在打印attentionweights时也证明了这一点,同类产品的attentionscore更高。另一方面,在端到端的训练过程中,商品关系的建模只使用模型的训练数据。通用模型的训练数据仅来自其服务场景的点击曝光数据。尾部商品建模不足。如果直接加入其他场景的训练数据,一方面难以保证其他场景的数据能够前移(实验证明直接加入数据在大场景下难以获益),另一方面另一方面,有时会出现离线训练耗时增加,不同场景的数据特征难以对齐等诸多问题。因此,我们利用京东的数据通过预训练对商品之间的相关性进行预建模,通过embedding和相似度得分作为后验统计特征将其融入到模型中,以提高模型的表达能力。.由于在推荐系统中,用户与产品、产品与产品之间的关系非常适合用图的方式来组织,因此图模型在建模产品相关性之间的关系方面具有天然的优势。因此,我们使用图嵌入的方法离线生成每个产品的嵌入向量。主要生成过程如下,详见EGES[1]。通过graphembedding得到每个商品的预训练向量后,可以通过faiss得到一个离线词汇表,记录了商品库中与每个商品最相似的N个商品以及相似度得分。在模型训练过程中,一方面可以将预训练的productembedding作为sideinfo,结合模型创建的随机初始化的productembedding参数(addition,dotproductorconcat可以根据需要调整)实验结果)组合训练。离线实验表明,相比于随机初始化,这种引入预训练图嵌入的方法可以帮助模型更好地学习用户行为中候选商品与商品之间的关系。另一方面,由于用户行为中有很多行为与候选sku无关,即噪声较多,序列越长,噪声信号越多。例如,如SIM中提到的,大部分是噪音。同样,我们可以利用faiss生成的离线词汇表,根据候选商品与用户行为商品的相似度得分,过滤掉得分低于阈值的无关产品,并对相似度得分进行一些离散化,作为加入后验统计特征到模型。2.基于曝光信息的兴趣建模(Gama)虽然用户的点击、加购、购买等积极行为可以反映用户的短期和长期兴趣,但在信息流推荐场景下,用户的实时利益也不断受到平台的影响。展示产品的影响。例如,用户在平台浏览时可能从来没有点击过某件T恤,但平台将某件T恤曝光给用户后,可能是因为价格很便宜,也可能是因为用户喜欢这种款式非常。感兴趣的。这种实时兴趣是无法建模的,因为不包括用户的点击、追加、购买等行为。因此,需要通过引入用户的曝光序列来描述用户的实时兴趣。曝光序列建模面临两个挑战:1.曝光序列长,计算负担重,在线系统对时间消耗要求高;2.曝光序列中的大部分产品与当前候选产品无关,存在很多噪声信号。针对这两个问题,我们创造性地提出了门控自适应小波多分辨率分析模型Gama,将非参数信号处理方法和曝光序列信息获取相结合,在不降低模型性能的情况下解决了以上两个问题,我们自适应地从海量曝光序列中挖掘多维用户兴趣,我们的方法如下所述。我们提出的模型结构如下图所示,其中主要模块包括小波分析模块(WaveletMRA)和兴趣门网络(InterestGateNet)。小波分析模块采用非参数高效的小波分析方法,对曝光序列的多层次数据进行分解,去除噪声,挖掘出用户曝光序列中包含的连贯兴趣。兴趣门控网络的加入旨在自适应调整多分辨率数据分解结果的聚合权重。小波分析模块(WaveletMRA):对于向量化的曝光序列Eu,小波多分辨率分析方法将其视为多通道信号,逐层分解数据。第J级的分解结果包括稳定的低频信号a和隔离的高频信号d,而低频信号a将继续进行下一级分解。多分辨率分析过程可以形式化为下式:其中H和G分别为低通滤波器和高通滤波器,具体形式采用小波基。常见的小波基有Daubechies、Coiflet、Harr等,其形式可参考小波分析的相关资料。息门网:对于上述分析方法得到的多个信号,最简单的使用方法就是使用它的平均值。然而,这种方法不能自适应地学习每个信号分量的权重,因此我们进一步提出了一个兴趣门控网络。假设目标产品的特征为eq,我们可以利用注意力机制聚合某个信号s:而对于我们需要考虑的所有分解信号(如d1,d2,a3),我们可以得到用户表示wu:这里我们首先验证了该方法在公开数据集(淘宝)中的效果在各种基于用户兴趣的CTR建模框架中提升了10%左右。同时,这种方式对于冷启动用户尤为有效。同时我们也在京东数据集上进行了线下实验,取得了很好的AUC提升,线上A/B效果明显提升。以上两项全球协同信息建模工作的AUC提升了0.35%,在线收入大幅增长。相关工作已收录在机器学习顶级会议SIGIR2022:《Gating-adapted Wavelet Multiresolution Analysis for Exposure Sequence Modeling in CTR prediction》,文章链接:https://arxiv.org/abs/2204.1406904其他工作除了变分特征学习框架,用户兴趣网络优化,以及全局用户协同信息建模,我们对精化排序模型也做了如下升级:特征综合打分后由XGBoost进行排序,重要特征使用embedding向量进行维度扩展;神经网络结构的Dense层升级为Nadam,Sparse层为adagrad;在用户行为序列中引入时间和位置信息,增强序列属性的丰富性;介绍了产品广告的主题ID频率网络子结构。基于以上技术的整体优化方案,精分模型累计AUC收益超过1%。我们还有一些关于精细排序的创新工作正在进行中,包括基于数据的CTR框架的生成、项目服务器桶序列框架和项目协作替代表示学习技术。总结与展望综上所述,经过半年的技术探索,京东零售广告算法TargetingGroup和工程团队针对模型冷启动场景、用户兴趣挖掘、全局等三个维度的挑战,提出了针对性的系统升级方案。协同建模:基于特征学习框架、用户兴趣网络优化、全局用户协同信息建模,总结出一套提升推荐广告AUC百分位数的技术方案。该技术方案已在京东完成。完全在线。同时,本文的技术方案也应用于京东APP泛商品活动智能优化等项目,为京东618促销活动带来了显着效益。京东零售广告数据与算法团队负责人林战刚表示,“过去,我们通过技术创新,构建更精准的用户行为建模和预测能力,在提升用户体验的同时,也带来了平台收益,实现了双方的共赢。无论是平台还是用户。未来,我们将不断完善数据的长宽厚,建立对全球用户的深度理解,并以此为基础,构建更复杂、更精准的智能算法模型,助力京东广告业务新形势下的发展。”展望未来,首先我们将积极探索新的精细布局技术范式,包括基于生成数据的CTR框架和ItemCollaborativeAlternativeRepresentationLearning技术框架。其次,在用户兴趣深度挖掘方面,我们围绕用户特征构建了UserServer动态表征赋能框架。面对多样化的训练数据和更长、更广、更厚的全局用户协作信息,我们设计了Item全局行为序列架构。精细点击率预测技术是机器学习算法技术驱动业务增长的核心模块,也是技术人员不断追求算法最佳精度的经典领域。我们将继续与同行一起改进和探索未来的技术。参考文献[1]WangJ,HuangP,ZhaoH,etal.阿里巴巴电商推荐的亿级商品嵌入[C]//第24届ACMSIGKDD知识发现与数据挖掘国际会议论文集。2018:839-848.[2]ZhouG,ZhuX,SongC,等。Deepinterestnetworkforclick-throughrateprediction[C]//第24届ACMSIGKDD知识发现与数据挖掘国际会议论文集。2018:1059-1068.[3]JiaqiMa、ZheZhao、XinyangYi、JilinChen、LichanHong和EdH.Chi。2018.使用多门混合专家对多任务学习中的任务关系进行建模[C]//第24届ACMSIGKDD知识发现与数据挖掘国际会议(KDD'18)论文集。2018:1930?1939.[4]AndreasVeit、MichaelWilber和SergeBelongie。2016.Residualnetworksbehaviorlikeensemblesofrelativelyshallownetworks[C]//第30届神经信息处理国际会议论文集唱歌系统(NIPS'16)。2016年:550?558。