卢浩：京东搜索EE场景排序链接升级实践_0

时间：2023-03-17 21:34:10 科技观察

在京东搜索系统中，EE模块的核心定位是在给定流量和时间的约束下，挖掘出更高效的产品。EE的优化目标是在保证搜索效率的前提下，提高广义中长尾产品的探索成功率，提高搜索结果的流动性和丰富性。全文将围绕以下几点展开：EE场景迭代闭环模型Debias迭代在线AB指标离线评估系统总结01EE场景迭代闭环由于EE场景的特殊性，从核心定位→在线指标入手→离线评价体系→模型迭代优化环节中的每一步都需要结合EE的特点进行升级。下面分别从模型迭代、在线实验指标、离线评价体系等方面分别介绍相应模块的优化。02模型Debias迭代1.问题背景EE的核心定位是挖掘更多更高效的潜在中长尾产品。它回答的第一个问题是，在当前的搜索体系中，哪些因素阻碍了中长尾产品机会展示的公平合理性？系统性的各种偏见。①Position-bias（显示位置偏差）目前的评分模型是根据每天转储的搜索日志进行训练和更新的。由于搜索结果的位置偏差（positionbias）效应，用户的行为不仅与产品本身的质量有关，而且受位置（展示位置）的影响很大。仓位偏向（positionbias）效应增加了头部产品的增益，加剧了平台生态的马太效应。在不去偏仓（展示仓位）的情况下使用偏仓日志数据进行训练，不利于对中长尾产品进行正确的效率预估，不利于平台流动性、丰富性和长期价值。②Popularity-bias（人气偏差）当有多个符合用户喜好的产品时，由于产品之间的历史累计销量、累计评论等人气特征的差异，倾向于向用户呈现流行、流行的产品、Popularitems更受欢迎。但是，匹配度相近的中长尾产品展示机会很少，中长尾产品更是中长尾。③Exposure-bias（曝光偏差）在一次搜索请求下，只向用户展示有限的商品列表，绝大部分商品无法展示；在搜索系统的一天之内，显示的整个产品集只是整个产品集的一小部分。这就带来了两个问题：一是模型的泛化，训练是在展示商品的日志上进行的，服务需要对所有商品进行推理，如何平衡训练和推理样本的矛盾流通分化，尤其是头、尾商品缺口巨大。另一方面，存在产品标签问题。该产品尚未积累用户的积极反馈。是因为不匹配用户还是没有机会展示？针对上述偏差问题，EE排名模型从positionbias建模和反事实推理学习方面进行了升级，试图缓解position-bias和polarization-bias，取得了一定的效益。然而，由于随机转储样本的标签问题，曝光偏差需要更多的探索。当前EE排序模型整体结构图：针对positionbias，设计了position-biasnet来模拟训练时position和prediction时mask的作用，对displayposition进行debias。针对流行度偏差，构建U-Inet/item_net/user_net分别对用户-商品内容匹配度、流行度因素和用户心理偏好因素的影响进行建模，根据因果效应消除偏差因素影响，还原用户对商品内容的影响产品本身偏好。2.positiondebiasing的迭代（1）position-biaspositionbiasmodelingEE模型升级为训练和预测的两阶段position-debias解决方案，通过pos-biastower对position-bias的影响进行建模，在ahighsemanticlevelFusionwiththeoutputmean,fitthetraininglabel,然后在预测阶段将其去除，以去除pos-bias的影响。①Pos建模方法posasfeat在训练阶段，将pos作为模型特征，结合其他u/q/i侧特征，共同输入到模型网络中，计算出对应的logits传回梯度。在预测推理阶段，强制所有样本使用相同的pos值，大致可以理解为：在同一个user/query下，所有商品都在同一个展示位置，比较预测分数。潜在风险如下：如何选择强制pos值。显示位置一般可以限制在[0-30/60]范围内。但是，不同的强制职位设置会带来排序结果的变化。如何在[0-60]之间选择一个合理的强制位，以及不同的时间和分布接下来，是否重做强制位的选择。pos特征的重要性。从网络底层输入的pos特征的重要性可能难以在最终的logits中充分体现，其物理意义（position因素影响用户产品交互行为的作用）也不易直观理解。multi-pospredict将最后一层设计为多位置通道输出网络，预测产品在每个枚举位置的logits输出。在训练阶段计算产品在所有位置的输出结果，只激活realpos通道计算logit和loss，其他位置通道被masked。推理时，贪婪地从第一个位置开始，不放回地选择当前位置最优的产品，直到最后一个位置。该方案适用于排序位置相对固定的场景，比如重新排列N，选择N，不适合现有的搜索EE架构。一方面，SVGP结构对多通道结果输出不友好；另一方面，EE现有的插入范围比较大[1-60]，比较插入机制也需要非常复杂的适配和改造，方案过于繁重。posastower对现有的DNN+SparseVariationalGaussian（svgp）采样打分模型进行了升级，采用了基于position-biasnet（positionbias）的模型方案。该方案具体是用于训练和预测的两阶段位置去偏。在训练阶段，引入展示位置表示作为位置偏好网络，与user/query/item-based主网络一起输入，估计产品在当前位置（位置偏好网络）下的得分及其自身质量（主网）。在预测阶段，通过去掉位置偏好网络，预测的商品只根据自身质量的采样进行评分，去除了展示位置的影响。该方案可以缓解训练数据的position-bias，减少头条商品因展示位置的得分增益，减少中长尾商品因靠后位置的得分损失，优化丰富度搜索结果和平台生态。(2)PersonalizedPositionBiasModeling用户对商品的偏好是个性化的，不同的用户对商品的偏好不同。用户对位置的偏好也不同，不同的用户对位置的敏感度也不同。上述bias-net建模方法假设所有用户对同一位置的偏好相同，忽略了用户之间位置偏好的差异。一个典型的例子如下，部分浏览的用户对系统中的位置相对不敏感，位置排名对用户行为决策的影响相对较小，而对快速购物用户的影响则完全相反。个性化的位置偏差建模。升级现有的bias-net结构，引入用户个性化特征，包括静态画像和动态行为序列。通过个性化bias-net计算出不同用户对不同位置的位置偏好，更准确的还原用户对产品内容的真实偏好。现有的EE模型结构为DNN+SVGP+TS。DNN执行用户和产品的个性化表示。SVGP利用训练样本的反馈标签和样本间的表示距离推导和计算待预测样本的效率得分和不确定性。结合TS算法对item最终的explorationscore进行采样。如何结合SVGP和Pos-biasNet在不确定性评分模型中进行positiondebiasing？①结合PosTower和svgpSVGP简介GP（Gaussianprocess，高斯过程）是一种当样本之间存在相关性时，通过观察来修正和预测未知样本标签的算法。总之，未知样本越接近观测点，其均值越被修正，越接近观测值，方差越收敛，反之亦然。SVGP（SparseVariationalGaussianProcess，基于稀疏变分的高斯过程），针对大样本量下协方差矩阵和求逆难以计算的问题，设计一定数量的可学习引导点，并对所有训练样本、未知样本均值和方差是通过与引导点的协方差计算的。RepresentationFusion（表示融合）有Pos-tower和Main-tower融合两种方式，representationlayerfusion和logitlayerfusion。Fusion在SVGP计算之前进行，即对表示层向量进行融合，可以使用concat/sum/avg等多种方法。难点在于向量之间的加法和平均运算不能直观地理解其物理意义和作用。向量叠加是否导致logit正向增加，向量带来了多少logit提升，这些positionbiaseffects很难分析。另外，从模型结构上看，svgp依赖样本内容的相似度来计算均值和方差，而position-bias的影响应该与样本内容的计算无关。Logit层融合（LogitFusion）svgp后的logit层融合可以采用logits的乘加法，直接从模型结构（content）解释公式Label=f(content)+f(position)/Label=f*f(position)，其中f(position)的绝对值直观的代表position带来的增益。②在持仓偏向模型在线效果保持市场效率不变的情况下，EE核心指标明显提升，探索成功率指标（探索更高效的产品）显着提升，探索流动性指标（探索更多产品）大宗商品）全面好转。3.PopularitydebiasingPopularitydebiasing的总体思路如下：①IPS对每个产品进行倾向得分估计，然后使用反向倾向得分权重法消除倾向得分的影响，估计出该产品的真实内容匹配度产品分数。挑战点：如何准确获取倾向得分是后续纠偏的前提挑战。整体训练是两阶段训练，环节上有一定的复杂性。②人气降权在实际搜索和推送数据中，分别根据其热度在用户侧和物品侧设计相应的降权权重，以缓解整体以人气用户和产品为主导的趋势，提升影响力有关样本。难点：合理设计配重方案。如何挖掘困难的例子。③基于因果关系的反事实推理如何缓解流行偏差问题？在训练环节，加强和改进中长尾产品的学习是一个重要的方法；解构用户交互行为，分离出产品热度等因素的影响，是另一个角度的解决方案。（1）因果图和因果关系简介因果图是有向无环图，其中节点表示随机变量，有向边表示节点间因果作用的方向。如上图所示，对于节点Y变量，有两条因果关系路径，分别为I→Y和I→K→Y。I→Y表示从节点I开始的自然直接因果关系（NDE），有动作路径上没有中间节点。I→K→Y表示从节点I开始的间接因果关系(TIE)，K是路径上的中间节点。直接因果效应和间接因果效应之和就是Y变量的总因果效应(TE)。总因果效应的计算可以通过自变量的单位扰动带来的因变量的变化来计算，以及自然因果和间接因果效应的计算：可以得到以上公式，并且当计算TE和NDE时，计算中的间接因果效应可以推导出TIE。(2)搜索中的因果效应在电商搜索场景中，用户与产品的交互行为可以表示为U-I之间各种因素的综合作用。一个普遍的想法是将U-I之间的内容匹配程度作为一个预测因素，学习这个因素在交互行为中的作用，对未来的样本进行预测排序。从电商搜索的实际情况出发，进一步划分交互行为，影响用户产品交互行为的因素一般包括以下三个方面：(U-I)→Y，U-I内容匹配因子，与用户之间的匹配度用户和物品本身的内容，喜欢程度对交互行为的影响，越喜欢越点击购买，I→Y，物品流行度特征，当内容偏好匹配几个相似度的产品时，由于历史累计销量等人气特征，会展示更多人气商品，被互动的概率更高。U→Y，用户的自然心智，用户对热门产品的偏好不同，有的用户更倾向于热门产品，有的用户则不敏感。以上因素的拆解包括U/I内容匹配度这个间接因素的影响，以及U和I的直接影响。因此在EE模型中设计了如下网络对各个因素的影响进行建模：具体设计了UI-Match-Net、User-Net、Item-Net分别预测对应的三个因素的影响，其中总effect和U/Ieffect分别表示为：训练中Loss的设计如下，分别为：U-I和label的损失，优化主模型U的准确率，I侧直接因子的损失，并通过这种方式预测两个直接因素的交互结果Influencingalpha/beta是为了减轻训练时超参数预测阶段的popularitybias，主要是去除popularityfactors和usermentalcausality（biasfactor）的影响，具体通过从总因果效应中减去自然直接效应（偏差因子效应）），试图准确还原U-I内容匹配度的影响。TIE=TE-NDE：反事实推理后因果图的状态如下，剔除U/I的直接影响，保留U-I内容匹配度的影响：（3）反事实推理的在线效果建模使市场效率保持在同一水平以EE为例，EE的核心指标有明显提升，探索成功率指标（探索更高效的产品）和探索流动性指标（探索更多产品）均有提升显著地。03线上AB指标探索成功率指标，用于指导小流量AB时期EE效果分析。其设计思路从EE的核心价值出发，推导出与长期价值相关联的AB时期的核心指标。具体来说，就是论证探索成功率指标→EE核心价值。对于符合搜索成功率的产品，在一定时间后跟踪其在搜索中的接受度，是否被市场接受。判断产品在搜索中的接受度主要是基于三个要素：流量、点击量、订单量。通过商品概况和接受度定义分析、商品接受度统计、分层接受度分析等，迭代找出搜索EE在AB实验中关注的EE核心指标集——探索成功率。04线下评价体系EE线上指标主要关注：市场效率、UCVR、UV值。探索成功率，其他辅助观察指标包括流动性指标和丰富性指标。线上探索成功率及辅助指标现阶段难以与模型离线指标（AUC等）关联，无法离线评估EE模型的探索能力，限制了EE模型的迭代速度，极大地限制了EE模型的迭代速度。增加迭代时间的成本。针对EE场景指标，设计离线指标评估集，从效率、中长尾探索强度、不确定性估计等方面综合评估EE模型，加速迭代。05总结搜索EE是提高搜索场景流动性和多样性的关键模块。它面临的问题与作为主要模块的效率排名问题有很大不同，对EE学生提出了不同的挑战。排名模型根据EE场景特点，从Debias（评分公平性）入手，拆解各种排序场景存在的偏差问题，升级更通用的解决positionbias和popularitybias问题，取得了EE显着核心指标的改善。同时，迭代环节中的线上AB指标和线下评价体系也进行了演示和迭代，完成了整个EE排序闭环环节的升级。限于篇幅，AB指标和线下评价体系本文将不做全面展开。欢迎有兴趣的同学随时一起交流讨论。EE场景面临许多挑战。后续计划将从以下几个方面继续深入探索：引入更丰富的用户探索信号表达，增加explore-net和supervisionloss，提高EE模型对探索偏好的学习。思考EE的长期价值，如何在模型结构和Loss设计上结合长期价值。优化EE探索机制和EE候选集，提升EE全链路探索能力。今天的分享就到这里，谢谢大家。

上一篇：字节跳动禁止中国员工访问海外产品代码库，“内外有别”确保安全？

下一篇：一文看懂Linux时间子系统的硬件架构

卢浩：京东搜索EE场景排序链接升级实践_0相关文章