当前位置: 首页 > Web前端 > HTML

马蜂窝用户内容贡献能力模型构建

时间:2023-04-02 22:06:32 HTML

在用户个性化时代,垂直化、精细化运营被视为企业的重要竞争力。一个完整清晰的用户画像体系,可以帮助企业从海量用户信息中发现每个用户的行为特征、潜在能力、兴趣爱好等信息,从而为用户提供有针对性的服务。马蜂窝拥有大量的用户出行体验数据。在成长和发展的过程中,一直在探索如何基于海量UGC数据,挖掘每个用户的基本特征、偏好和潜在兴趣,从而精准定位和标记用户,连接优质的内容、商品和服务。与用户的服务。今天的文章主要围绕马蜂窝用户标签体系中的“用户贡献能力”标签,介绍我们如何挖掘那些可以为马蜂窝UGC做出贡献的群体,这样做的价值是什么。挖掘用户内容贡献能力的意义鼓励用户分享原创内容,互相学习旅游信息,是马蜂窝能够持续吸引用户的核心。这些用户产生的原创内容,既有记录自己旅行经历的攻略和游记,也有帮助其他用户解决旅行疑惑的问答和评论。通过这种内容分享的互动模式,让越来越多有个性化旅游需求的用户在马蜂窝完成旅游消费决策的闭环。为了更好地帮助用户提高决策效率,我们需要寻找具有丰富自由行经验和一定内容生产能力的旅行者,围绕内容增长和用户活跃度制定相关策略。如果只以用户的等级划分来评价用户的影响力,显然是有问题的。我们都知道,用户等级作为用户激励体系中的一种手段,是对用户过去行为的认可,所以等级一般只会增加不会减少。这一特点导致:用户的核心输出能力无法有效量化:用户只需每天进行签到、回复、评论等简单行为,就会逐渐升级到高水平;用户升级后,等级固化:比如用户已经很久没有登录了,但是从等级上看他的影响力还是很强的;无法感知用户的Content产出意愿:即使用户等级高,最近登陆过,我们也无从知晓用户对哪些话题感兴趣,是否有产出内容的意愿。为了解决上述问题,我们将内容贡献能力作为用户画像标签体系中的一个领域进行挖掘,并应用到马蜂窝的多个业务中。旅游攻略。我们可以圈定近期在该领域贡献较多、内容热门的相关用户,推荐给提问者,邀请提问者回答,确保旅行者的问题得到快速、准确的回答。马蜂窝KOL挖掘通过用户内容贡献能力标签,我们可以更精准地挖掘活跃、专业、热爱旅游、能够产出优质内容的KOL。旅行者的优质内容获得更多曝光;另一方面,KOL的力量可以结合并转移到线下,用他们的个人经历,用最简单的方式带动用户的直觉认知,比如“马蜂窝攻略”等。图:马蜂窝旅行家专栏图:马蜂窝导游俱乐部用户内容贡献能力模型简单来说,就是从用户活跃度、一定时间内的热度、输出愿意为用户贡献三个维度构建模型能力衡量,即:用户内容贡献能力=用户产出意愿+用户活跃度+用户热度1.用户活跃度模型RFM模型我们很多人都比较熟悉,它是衡量用户价值和用户盈利能力的经典工具。这里我们根据马蜂窝旅游社区的场景调整RFM模型的三个因子:A(Activity):用户活跃度e^(-αt):从上次访问时间到今天的时间衰减,采用指数衰减,其中α是衰减系数。这里,指数衰减函数用作时间衰减因子。F*E可以理解为用户活跃度,时间衰减因子反映了用户活跃度随时间逐渐衰减的过程。在马蜂窝场景下,通过对实际数据的参数调整,我们选择在时间t为一年(365)时衰减到最小值0.0001,然后输入公式求出α的值。这里的考虑是如果用户一年没有贡献任何内容,意愿衰减到最小,得到的α为0.0189;F(Frequency):用户在特定时间段内贡献内容的频率。这也是基于场景计算游记、问答、攻略、笔记(结合图文视频)等各类内容;E(Engagements):用户上次贡献的内容类型,不同类型的UGC有不同的对应值。例如,游记的制作难度和内容价值都高于回答用户的问题,以及基于图片和视频的笔记。通过计算马蜂窝UGC中不同类型文章的占比,得出如下结论:游记E值为5,问答价值为2.5,笔记价值为3。2.用户热度无论是何种形式的UGC,获得认可的方式通常都是通过其他用户的点赞、评论、收藏、分享。在马蜂窝,游记、问答、攻略、笔记等不同形式的文章有着不同的热度。比如图片、视频等形式的短内容(笔记)曝光度更高,但被点赞和评论所认可。速度还不如攻略游记之类的长篇文章。因此,通过分析游记、问答、笔记等不同内容在社区中的点赞数,最终计算出一个用户的人气综合得分和平均得分,如下:流行度,α、β、χ分别代表不同类型内容的权重因子。这里通过计算分析全站不同形式文章的点赞数,得到α:β:χ=1:1.05:0.98。为计算方便,α、β、χ均近似取1。Travel值表示该游记的受欢迎程度。计算方法是用点赞、收藏、分享、回复等相关特征作为特征属性来衡量一篇文章是否受欢迎,然后通过逻辑回归模型训练特征权重,如下:文章质量高,W_i代表权重,权重的值是通过模型训练得到的,N代表文章类型,vote代表喜欢,Fav代表收藏,Comment代表评论,Share代表分享。最后通过Travel的权重计算得到权重来判断一篇游记的受欢迎程度。Answer和Note的计算方法同上。模型训练后得到的结果如下(这里为了计算方便,数值四舍五入到小数点后一位):游记:w1:0.1,w2:0.5,w3:0.2,w4:0.4;问答:w1:0.2,w2:0.9,w3:0.3,w4:0.6;注:w1:0.1,w2:0.5,w3:0.3,w4:0.6;3.用户分享意愿用户的分享意愿是基于标记用户和PageRank。将用户贡献的内容标签作为用户兴趣的代表,然后结合实际场景,根据PageRank计算模型分析话题与用户的关系,选择感兴趣且分享意愿高的内容根据标签相似度计算推荐给用户。例如,当用户贡献的内容标签和当前主题标签类别属于同一类别时,我们可以理解为用户输出具有相同标签的主题的意愿比较强。如果用户也贡献了与当前话题标签相似的内容,则用户的分享意愿会相应增加。如下:D代表用户写内容的意愿,d_i代表用户对某类文章的贡献意愿(比如写游记的意愿);T_i表示用户过去生产的某类内容占用户分享的所有内容的比例,其中T_1代表游记,T_2代表问答,T_3代表笔记;C_i表示某类用户撰写的文章数量,其中被选为优质文章。同理,C_1代表贡献的优质游记数,C_2代表贡献的优质问答数,C_3为贡献的优质笔记数。N代表阻尼系数,这里的N默认值为0.85。综上所述,通过“用户输出意愿+用户活跃度+用户热度”,我们可以赋予相应的用户UGC等级,从而客观有效地量化用户的内容贡献能力。总结用户内容贡献模型充分考虑了用户层级设置中未突出用户行为类型、时间衰减因素、未充分挖掘用户兴趣三大问题,提出了新的模型视角,充分应用于马蜂窝目前的产品应用.未来我们会继续优化算法,比如为模型增加评论等多维属性;加入内容画像的质量分+文章本身在内容影响力方面的得分,不仅仅局限于优质、蜜蜂优先、采纳答案等,更精准地挖掘用户内容贡献能力,提升马蜂窝用户标签系统。本文作者:于云飞&张扬,马蜂窝推荐架构&用户画像研发工程师。(题图来源:网络)关注马蜂窝技术,发现更多你想要的内容