背景每一坪每一屋是阿里巴巴旗下的家居平台,涵盖淘宝每一坪每一屋家居频道、每一坪每一屋设计师、每一坪每一屋App、每一坪每一间家家户户制造业等家居全链路服务,为消费者提供2D短文、长文、3D样板间、3D短视频、VR全屋漫游等丰富多样的家居内容之一。生活灵感和家居装修指南。淘宝天天家居频道是天天天天商家获取C端流量和分发内容的主要阵地,建立用户的家和生活方式心智场。在一屋一屋频道,内容以场景搭配为主,内容中挂载了多个产品主播。点击产品锚点可以跳转到产品详情页面,完成进一步的收藏、购买等。随着业务的快速发展,提供的内容种类和流派逐渐丰富,内容层次也全面提升-圆的方式。然而,现有的个性化分发策略并不能完全满足内容创作者和内容消费者的需求。具体来说,对于内容消费者来说,他们希望在平台上获得优质实用的内容。对于内容创作者来说,他们希望自己发布的内容能够被更多人看到和认可。虽然以效率为导向的个性化分发算法可以满足用户的短期需求,但从长远来看,平台流量将被高调的头部内容占据,而长尾内容无法有效曝光,导致部分创作者无法及时获取有效内容。反馈、制作积极性会大打折扣,甚至从平台流失。综上所述,除了从算法分发的角度优化平台的流量分发策略外,我们还需要考虑如何鼓励创作者产出更多优质的内容,并保证这些内容能够被消费者看到。内容生态视角。在推荐主链的召回、排序、机制策略上,我们引入了几种算法策略来提高推荐内容的多样性,降低系统的马太效应,但这部分优化主要是对存量内容有效。对于新发布的内容依赖于冷启动系统的加速。各个方块、各个房屋的冷启动环节经历了从基于Thompson采样的固定坑位展示到基于VisualEE的动态混合策略的迭代。但随着内容供给速度的提升,有限的冷启动流量难以满足新内容的快速发布和潜在优质内容的快速增长。本文将介绍我们在冷启动系统中采用两阶段多级流量放大策略和内容潜力预估模型的实践经验。冷启动系统优化我们将新内容的冷启动分为两个阶段:统一量维护提升和放大统一量维护阶段的目标是缩短新内容的首次曝光时间,保证曝光机会的公平获取。提升和放大阶段的目标是帮助内容快速增长。符合要求的新内容相互竞争,从当天分配的固定流量池中获取流量。有潜力的优质内容会在这个阶段迅速获得一定的曝光量,加速其成长。速度。由于新内容缺乏在线反馈数据,直接复用主链接的召回排序算法会导致新内容的预估结果偏差较大,因此我们设计了一套独立的召回排序链接对于冷启动环节。为了在没有反馈数据的情况下将潜在的优质内容尽可能高的排名,我们还设计了内容潜力预测模型,并将该模型的预测分数用于召回和排名算法。冷启动链接的推荐结果会结合主链接结果和控制分数进行生成重排,最终判断冷启动内容是否显示在当前请求中,在哪个坑中。均保数量均保数量是解决创作者流量确定性的第一个环节。在我们的系统中,最近7天新发布且曝光pvm时,该内容将不再保量投放。均匀保量拉升放大策略有效缓解了新内容首次曝光周期长、初始流量获取难等问题,但该环节并未充分考虑给潜在优质内容更多流量,加速其成长为热门内容.我们为新内容引入增长助推链接,根据内容上线的实时性动态调整支持流量,随着效果的提升逐步增加流量,给予优质内容获取更多流量。助推放大链接会对已经获得一定曝光度且点击率大于指定阈值min_ctr的内容实施分级流量放大策略。在该策略中,内容支持流量的上限会根据内容的实时点击率动态调整。我们根据市场的内容效果和可用于支持的流量比例划分了k个助推器级别,并根据实时计算的后验点击率确定内容所属的助推器级别。当booster链接中内容的曝光pv>上限n后,该内容将从booster链接中退出。业务影响流量新鲜度近N天发布内容pvr:N天内发布内容获得的总流量占每日曝光内容的比例(指标越高新鲜度越高)按pv加权发布天数:每日曝光content内容发布天数,通过内容曝光pv加权计算(指数越低,新鲜度越高)。我们在5月21日底启动了冷启动系统优化项目,新系统逐渐增加。从时间段来看,自上线运营以来,近N天发布内容的pvr呈逐渐上升趋势,而pv加权发布天数呈逐渐下降趋势,说明新系统对提升整体推荐系统的流量新鲜度有积极作用,最近7天发布的内容pvr+15.8%,最近14天发布的内容pvr+73.3%,最近14天发布的内容pvr+17.1%在过去30天内发布的内容。流量支撑增效放大阶段引入分级流量放大机制,将更多用于冷启动支撑的流量向潜在优质内容倾斜,加速优质内容的增长。我们使用最近1天常规链接分发下最近7天冷启动链接暴露内容的pctr来衡量支持效率。具体公式定义为:其中为冷启动链接上获取内容的曝光PV,为常规链接统计获取内容的CTR。考虑到CTR的计算取决于曝光量,使用means只统计常规链接下获得100次以上曝光的内容,efficiency+30%,efficiency_limit+39.9%。ContentPotentialPredictionModel模型设计我们设计了一个内容潜力预测模型来预测新发布的内容在未来成长为热门内容的概率。该模型以内容能否走红为目标,发布7天内快速获得高曝光和高点击的内容为正样本,其余为负样本。通过模型训练,捕捉已经成长为热门内容的特征,从而挖掘潜在内容。特征工程在特征选择上主要分为两类:内容属性特征和内容覆盖图像特征。其中,内容属性特征包括:内容的样式和空间、挂载商品的id、类别、店铺、组合价格。通过预训练模型提取相应的封面图像嵌入特征。值得注意的是,我们有意识地避免基于点击率等用户交互行为的统计特征,以便更专注于对内容本身的潜在估计。样本结构在样本结构上,我们采用两种方案:方案一:设置曝光PV和点击率阈值,高于阈值的为正样本,否则为负样本;方案二:首先根据内容曝光PV和点击率进行修正。其次,在空间x风格维度下,内容发布7天后累计点击率高于该维度平均点击率的内容视为正样本,其余为负样本。方案一在正样本的选取上更加严格,可以保证内容的受欢迎程度。第二种选择考虑了内容在不同空间和风格下点击率的差异,但可能会将某个维度内流行但不全球流行的内容设置为正样本。模型结构基于Wide&Deep模型,设计了潜力估计模型。具体有两点变化:contentcoverimagevector和Sparsefeature的embedding是concat的,作为deepside的输入;训练时,根据暴露PV的大小,给样本分配不同的置信度,PV值越大,样本置信度越高。离线评估下表显示了基于上述两种方案训练的模型的潜力估计。P(is_hot)在top10%的内容会在自然推荐后冷启动超过7天后获得曝光PV分布。012345方案一17.45%12.97%11.57%11.57%23.53%28.18%方案二19.17%13.75%13.97%24.70%20.78%24.30%第一行0-5为内容曝光范围PV:值越大,对应的曝光PV就越高。从比例上看,方案2在挖掘潜在内容上更为精准。业务效果潜力预估分数主要用于干预在线冷启动链接内容的召回和排序算法。期望对于P(is_hot)高的内容,给予更高的冷启动PV;同时,对于P(is_hot)较低的内容,其冷启动PV将被降低,以节省部分冷启动流量。在具体实现上,我们分别使用潜在预测分数作为冷启动链接排序模型的特征和召回链接的截断分数。作为排序模型的一个特征,我们统计了7天在线AB实验的结果。uctrpctravg_expoavg_clickavg_ipv_clickipv_uctripv_pctructcvrpctcvr方案一+0.18%+0.19%-0.89%-0.71%+0.21%+0.33%+0.86%+0.51%+1.05%方案二-0.16%+0.15%-0.81%-0.38%-0.386%-0.54%+0.49%另外我们统计了上线冷启动环节完整AB7天的效果。ab_idpctructripv_pctripv_uctrpctcvructcvrexpo_ratio方案1+3.00%+3.10%-0.45%+0.38%+2.16%+3.14%+0.34%方案2-0.03-0.04-0.06-0.05-0.07-0.070.00与基于支持基线的冷启动相比,将方案1输出的预估内容潜力得分作为冷启动链接粗排序模型的特征,整体收益为正,二跳相关指标明显提升。但是,方案2的整体收益是负的,这可能是由于将维度中的热门内容设置为正样本而将全球非热门内容设置为正样本的负面影响。作为召回截断分数,我们进一步使用方案1的潜在估计分数作为冷启动链接中叶类别单链接召回的截断分数。下表显示了完整的7天AB在线实验的结果。uctrpctravg_expoavg_clickipv_uctripv_pctructcvrpctcvravg_ipv单链接召回分数+0.25%+0.03%-0.02%+0.01%+0.37%+0.26%+0.62%+0.29%+0.26%完成AB7天冷启动链接效果如下图。pctructripv_pctripv_uctrpctcvructcvrexpo_ratio单链接召回得分+8.06%+8.31%+11.10%+10.40%+20.38%19.47%+13.54%在冷启动环节有明显提升,整体指标也进一步提升。小结新内容入户入户的冷启动分发策略经历了从基于Thompson的基于采样的展示到基于VisualEE的动态混合策略。boosting和amplification两个阶段形成的独立算法链路,大大减少了新发布内容的首次曝光时间,提高了整个系统的流量新鲜度和冷启动阶段的支撑效率。我们引入的内容潜力预估模型,通过预估未来新内容成长为热门内容的概率,介入冷启动链接的召回和排名,有效帮助潜在热门内容在冷启动阶段获得更多的支撑流量,提高冷启动阶段流量的利用率。冷启动优化项目已取得初步成果,后续我们将进行更细致的优化:不同内容类型在呈现形式、内容主题、后期效果等方面存在差异。设计更细致的冷启动策略,将有助于进一步提高流量公平性,加速潜在优质内容的增长。冷启动链接需要快速反馈。引入更多的实时特性,将验证有效的ODL迁移到主链路上,可以提升整体链路的实时性,帮助新内容更加精准。分配