【.com原创稿件】新浪微博不仅是信息交流平台,还具有媒体属性。据统计,2013年12月,新浪微博MAU(MonthlyActiveUsers,月活跃用户数)达到1.29亿,DAU(DailyActiveUsers,日活跃用户数)突破6100万,到2018年3月,MAU超过4.11亿,DAU达到1.84亿。据2017年统计,微博主要用户集中在23-30岁,占比38.6%,男性多于女性,占比56.3%,用户兴趣主要集中在明星等泛娱乐领域,美女帅哥,动漫。如此庞大的用户群和广泛的兴趣标签,如何精准推送用户感兴趣的话题、博主、活动日期,是新浪微博一直在解决的问题。个性化推送的应用,将精准推送这项业务变得短效高效。图1新浪微博戚艳杰博文质量、算法模型和分发效率共同决定推送效果。在实现个性化推送之前,必须建立一个推荐系统。所有的推荐系统基本上都是从内容的来源中找到用户喜欢的东西。微博来源为全量原创博文。但面对每天几千万的生产量和大量不合适的原创文章,如何实现精准推送的诉求?人工筛选和机器筛选是一个很好的结合。在推送流程中加入人工审核流程,可以减少色情、不健康、不当内容的传播,同时减少对用户的骚扰。素材召回模型只是在源头把握了原创博文的筛选,如何才能将优质文章推荐给感兴趣的用户呢?这就需要一个排序算法模型。首先审核素材生成模型,筛选出所有优质内容,放入素材池,素材池要实时更新互动特征,比如这条微博在当前时间点等。更新后,每分钟提取当前可用的素材和用户,计算排序,筛选出客户最感兴趣的博文,最后发送给用户。实际上,在我们的推荐系统中,有一个与模型计算并行的协同推荐服务。在一些推荐系统中,将协同推荐作为召回的方式,将协同推荐产生的内容放在素材召回部分再进行推荐。但是在我们的场景中,协同推荐效果比排序模型要好,所以不需要再走一遍流程,直接发给用户即可。经过基础过滤分发,实时采集分发日志和点击日志,经过数据加工处理,更新素材池,同时更新素材生成模型和运营审计部分。图2推荐系统机器学习的特征维度是在排序策略、模型服务、特征工程和基础数据的整体架构下建立的,包括博客信息、用户信息、行为信息等,利用这些信息挖掘特征上层,利用特征进行模型训练和评估,得到排序模型和材料模型。有了模型后,将模型应用到在线排名策略和CTR预估中。***,将线上数据传回,为下一次模型训练迭代进行基础数据计算。DimensionofInterest然而,对于一篇博文,在构建特征时,需要使用三级标签体系来表示博文的含义,通过用户对博文的浏览程度来呈现用户的兴趣。这时,在三级标签体系中,一级标签相对宽泛。比如体育领域,一级标签下会有二级标签,比如:足球,二级标签下会有三级标签,比如:梅西,克里斯蒂亚诺·罗纳尔多。当用户阅读多篇带有Messi标签的博文时,我们就知道该用户对Messi感兴趣。所以当一个Messiitem进来的时候,这部分的feature会被用到,加入到模型中的Training中,然后推送给感兴趣的用户,这就是兴趣维度。图3兴趣维度关系维度兴趣维度是用户对兴趣领域的特征描述,但是如果要在模型中加入博主与用户之间,即人与人之间的特征描述,就需要关系维度。如果一个博主和一个用户的交互历史非常高,那么这个博主一定是满足了用户的需求,那么他们的关系也可以作为一个维度特征加入到模型中。实时维度在给模型增加兴趣维度和关系维度的同时,也需要将先验数据传回。这时候就需要实时维度的帮助了。因为推送场景使用的素材相对较少,同时曝光机会也很少,点击率可以作为先验数据传回并导入到模型中。除了以上三个维度外,还包括环境维度、推送时间、设备网络信息、设备自身信息等。介绍完特征部分,再来说说模型演化的过程。升级从LR(LogisticRegression,逻辑回归)模型开始。LR模型基本上很难捕捉到用户的组合特征,所以进一步升级为FM模型。FM(FactorizationMachine,隐因子分解机)模型是LR模型的成对特征加上Dense(致密化)的组合。每个成对的特征组合都需要一个权重Wij。如果直接计算Wij,因为特征组合会导致样本太少,Wij不准确。因此,Wij是由因子Vi和Vj相乘得到的。但是FM模型只做二二结合的特征,所以升级为wide&deep模型。通过结合widemodel和deepmodel,既保留了widemodel中的记忆能力,又具备结合一些高级特征的能力。使这样的模型具有更强的表达能力。图4Wide&deep模型Push使用实用技巧利用用户频次(频次+次数)拆分提高点击量和点击率微博用户使用频次差异很大,所以需要进行用户频次拆分并分别训练高频、中频和低频用户,所以在负样本的选择上需要做一些改变。服务器推送的时候,会遇到用户没有设置系统提醒新消息的情况,也会遇到用户没有阅读新消息的情况。因此,在选择推送用户时,尽量选择历史上有过正样本的用户,这样当用户获取到正样本的复现时,对正样本(包括两个负样本)进行多次曝光,可以增加点击次数和点击率。逐层控制材料的分布。如果一个材料没有完全验证,它是为所有人计算的。可能是当某个特征特别高的时候,分布会过大,可能会让一个低质量的素材暴露给太多的用户。所以先在很小的范围内试一下。如果点击率达到预期,就会逐步逐层扩大,直至完全释放。这样既可以控制劣质素材的分布范围,同时也可以给经过充分验证的优质素材提供曝光机会。以上内容是记者根据新浪微博戚艳杰在WOT2018全球软件与运维技术峰会上的演讲内容整理而成。更多WOT资讯请关注51cto.com。
