作者|郑宜佳1.背景什么是素材优化?近年来,短视频基于Feed流推荐的业务带来了巨大的广告商业价值,例如推出的“游戏发布者计划”是鼓励人才发布游戏相关的有效工具短视频,为游戏推广带来流量,实现流量变现。与专业创意(PGC)相比,这些由专家创作的原生创意(UGC)往往具有显着的成本优势,而且风格多样,素材量大。然而,在出版社计划制作的大量UGC短视频中,很多优质素材由于作者人气等原因无法获得足够的曝光,导致这些素材的价值没有得到充分发挥。因此,通过在“游戏发行商计划”中选择具有广告价值的素材进行素材加热(dou+投放),并借助智能投放、人群定向等其他技术,更准确有效地获取游戏流量,最大化游戏的收入。人力资源的潜在价值可以更好地实现内容营销。所谓素材优化,就是从大量的短视频素材中找出广告效果最好的素材。为什么需要选材?传统的素材筛选往往是靠操作的同学根据人工经验进行筛选,通常是根据简单的规则(比如按视频vv号筛选等),然后再从中进行人工筛选。这种手工方式面临很多困难:过滤规则依赖于手工经验,往往比较简单,效果不佳,容易导致大量优质素材的遗漏;筛选素材人工成本高,往往需要人工观看大量视频才能筛选出少量优质素材;缺乏客观筛选依据,易受主观因素影响,无法定量评价素材可能带来的转化效果。因此,如何利用算法自动优化材料是一个极具应用价值的研究方向。2.业务场景在正式介绍建模方法之前,有必要对背后的业务场景进行说明。一方面对齐了一些相关术语,另一方面也让读者对这些方法实际解决的问题有更清晰的认识。知道。在其他业务场景中,读者需要灵活结合自身业务特点,对这些方法进行完善。业务场景一句话概括我们的业务场景:在抖音“游戏发行商计划”下甄选优质游戏素材,用于dou+素材热度,更好的为游戏带来流量。“游戏发行商计划”是一个连接游戏广告商和抖音视频达人的平台。广告商在该平台发布任务,专家接受任务并提交相应的游戏相关视频素材,根据素材带来音量效果。获得了一定的现金收入,广告主也完成了游戏获取的目标。这些发行商计划投放的素材会带上一个锚点链接(如图1所示),可以链接到相应的游戏推广落地页,从而为游戏带来预约和转化。由于素材在自然流量下受作者知名度等因素影响,部分好素材可能很难出。因此,我们会根据发行商的计划,选择有体量潜力的原创素材做dou+热度,从而为游戏获取体量。.图1发布者素材和锚点链接展示示例在本文中,我们将优质素材定义为:在同等消费规模下对游戏具有良好体量效果的素材(其他目标如付费等在此暂不讨论)文章)。那么什么是好的体积效应呢?在我们的业务场景中,主要考虑两个指标,CTR(点击率)和CVR(转化率)。点击率是指视频的锚点显示后,用户点击锚点进入落地页的概率。该指标可以近似衡量视频的吸引力。CVR是指用户进入着陆页后下载、安装和激活游戏的概率。该指标可以大致衡量视频带来的用户质量(是否对游戏感兴趣)。我们定义好的激活效果,就是广告投放后的CTR*CVR高。(在素材筛选标准中,这两个指标需要同时考虑,缺少其中一个指标可能会导致最终效果不佳。比如只考虑CTR很可能会找到一些可以吸引用户的素材但是与游戏相关性不大,比如一些影视剧片段等,此类素材点击率高,但往往转化效果不佳。)图2发布者素材广告转化环节简化示意图(下图)真实场景比较复杂,但不影响我们这里讨论技术方案)CTR和CVR的具体计算方法如下:其中anchor_vv为视频主播vv,anchor_click_vv为主播点击vv,active_cnt为激活次数。素材优化和普通的个性化广告业务有什么区别?另外,虽然我们的任务是对点击率和转化率进行建模,听起来和典型的个性化广告/推荐业务差不多,但还是有必要强调一下看两者的区别。个性化广告的目的是模拟用户在特定时间(上下文)点击创意的概率。是一种实时获取用户信息和上下文信息的个性化建模方法。建模目标往往是单一曝光的点击率(训练时点击样本标签为1,0为未点击,为二分类目标);而素材优化的目的是从大量的视频中挑选出适合投放广告的素材,这是一个前期的过程,无法确定某个素材在具体投放过程中会展示给哪些用户,同时也是不可能做到实时干预。因此,一般的建模目标是预估素材的整体效果,比如某个投放过程中的整体点击量。比率(点击次数/展示次数,一个连续的数字目标)。3.建模方法3.1总体建模方案本文建模方案主要从业务角度对样本、特征和标签进行构建。可以使用传统机器学习或深度学习对模型结构进行建模。我们在前期的实验中,主要是使用boost系列模型进行实验,对模型结构没有太多探索(当然模型结构设计也很重要,以后会尝试更多的结构改进之后)。如图3所示,整体建模思路是输入素材相关的特征(见3.2节),建立机器学习/深度学习模型,返回素材投放的性能,即CTR和CVR(见3.3节)。图3建模架构示意图根据预测的CTR和CVR计算综合评分值score:最后利用评分值对素材进行排序,得到头部优质素材。3.2特征提取如第2节所述,素材优化是一个预筛选过程,无法确定素材将展示给哪些用户,无法进行实时干预,因此无法使用实时上下文特征和用户特征.因此,我们只能尽可能多地挖掘出可能对投放效果影响较大的材质相关特征。此外,与个性化广告相比,素材优化的建模数据量相对较小,个性化广告的数据量约为N_I×N_U(素材数×用户数),而素材优化只能使用聚合信息在物质方面。量级约为N_I(材料数量),导致可供训练的样本数量相对较少,因此在构建特征时要考虑特征维度,避免过拟合。我们最终提取的特征可以分为4类:素材端特征、作者端特征、游戏端特征、素材的历史表现效果。Material-sidefeatures:为了避免过拟合,我们没有直接使用视频图像等高维信息作为输入,而是通过内容理解、识别、预训练等方法提取高阶特征。最终使用的特征包括:视频类型(类别、风格等)、视频嵌入(如推荐模型生成的嵌入等)、视频基本信息(时长、地理信息等)。作者端特征:作者热度和活跃度信息(投稿数、粉丝数等)、作者个人属性(地域、学历等)、作者风格(如万帆标签)等游戏端特点:因为上线的目的是为游戏带来流量,所以不同游戏的用户群体不同,导致不同游戏用户可能喜欢的素材不同。因此,我们推出了游戏相关的功能,包括游戏类别、主题、玩法等等。素材的历史表现:包括抖音自然推荐流量的表现,历史广告的表现(只针对已经投放过的素材)。这类特征对模型的效果很有帮助,但在构建过程中要特别注意,避免出现特征交叉的问题。3.3样本构建3.3.1样本构建难点由于预测的目标是素材投放的表现,一个简单的思路就是对每个素材的历史整体投放表现进行建模,即历史投放过程中的整体CTR和CVR,这构建了样本作为回归模型的预测目标。但是在实践过程中,我们发现这种方法存在一些问题:时间因素的干扰:同款手游在不同阶段的效果差别很大:比如OB前期发布的素材往往投放量大,转化效果也比较大。好的;而在OB结束时,由于大量用户已经转化,游戏素材投入量会大大减少,转化效果也会大大降低,表现为CTR和CVR的下降。但是,这并不意味着OB结束时交付的物料会比较差,而是受到交付周期不同的影响。类似的时间干扰因素也体现在节假日、活动节点等特殊时期。CTR/CVR波动大:由于不同素材在投放过程中展示的用户具有随机性,比如有些素材只是展示给对游戏感兴趣的用户,这样会导致素材表现更好,导致统计的CTR和CVR有波动。举个极端的例子,如果某个素材只显示了10次,但恰好有一个用户点击了它,那么这个素材的点击率会很高(10%),但这是随机性造成的波动,这确实并不是说这个素材在流量规模增加之后还能保持这么高的点击率。这种现象在显示的素材量较少时尤为明显。随着显示素材量的增加,这种随机波动可以减少,但不能完全消除。3.3.2节将介绍一种改进的时间干扰因素建模方法,3.3.3节将介绍一种大大改进的CTR/CVR波动建模方法。3.3.2引入时间因素进行建模。我们首先考虑了建模素材整个发布周期的CTR/CVR,相当于聚合了不同发布时间的表现。这种方法可以获得比较稳定的CTR/CVR统计数据。但时间信息将被删除。但是在素材优化的业务场景中,时间因素的影响是非常大的。为了解决这个问题,我们在建模时引入了时间因素,主要包括两个方面的改进:基于天级别预测每个物料的日投放效果,而不是整个投放周期的投放效果;在建模过程中添加交货时间作为一个特征。具体来说,我们使用dailylevel提取每天投放的素材的表现效果作为训练目标。比如一个素材投放了n天,那么我们的训练样本中就会有n个样本,每个样本的标签(即CTR/CVR)为当天的表现,这样不同天的表现可以区分。同时,为了让模型区分不同交货日期对性能的影响,我们还需要在建模特征中引入时间信息。考虑到时间不是一个孤立的分类变量,相似的时间往往会对交付绩效产生更密切的影响。所以我们实际输入的是交货日期与某个固定时间的差值,这样就可以将时间类别变量转化为具有连续意义的整型变量。调整后的建模架构如图4所示。图4引入时间因素的建模方法示意图另外,由于一天发布的素材量较小,使用天级CTR/CVR统计可能导致到统计的CTR/CVR波动较大,但相比较而言,样本量变化更多,模型抗噪声的能力更强,从实际来看影响不大。此外,3.3.3小节还将介绍针对CTR/CVR大幅波动的改进方案。3.3.3样本损失加权策略我们的建模方案是回归素材的投放性能,比如CTR等,但是在实践中,我们发现统计CTR等比例信息存在波动,而这种波动当视频显示量比较大时出现。少的时候表现会比较明显(因为CTR=clicks/impressions,当impressions比较少的时候,clicks的小变化也会引起数值的大波动,对于转化率)。我们最初的解决方案是屏蔽视频(锚点)vv阈值,比如只使用vv>5000的视频进行训练,这样训练样本的CTR值比较稳定。但是这种方法并不能解决问题:在vv>5000的视频中,虽然统计的CTR比较稳定,但是仍然存在vv小的视频CTR波动过大的现象(head的CTR基本都是vv,vv数量太少);这种方法导致训练样本有偏差,因为训练样本中的视频都是vv数高的,模型在训练过程中没有看到vv数低的样本(这部分视频一般比较会相对较差,与高vv的视频有比较大的分布差异),这使得模型无法很好地预测这些低vv视频的性能,而且这些视频的数量虽然少,但视频数量会大得多(有长尾效应)。我们最终使用了一个简单但有效的解决方案:在训练期间对样本损失进行加权。对于CTR预估,我们假设视频的每次曝光是否被点击是一个独立的随机事件(暂时不考虑曝光次数对素材性能的影响,比如点击率衰减素材曝光过多造成的),只要曝光量在无穷大的情况下,大数定律就可以保证最终的点击率能够收敛到一个稳定的值,所以视频(锚点)vv可以从本质上衡量统计得到的点击率的置信度。因此,我们在训练过程中根据vv的个数对样本损失进行加权:视频vv越大,统计CTR置信度越高,对应的样本权重越高;视频vv越小,统计CTR的置信度越低,对应的样本权重越低。通过引入样本权重,模型可以更加关注视频中具有大量vv的样本,同时避免在构建数据集时人为卡住vv阈值导致的样本偏差问题。具体来说,我们通过为vv数添加一个加权项来改进原始RMSE目标。CTR预测和CVR预测的损失函数计算如下:(1)CTR预测损失函数使用加权策略,其中各符号含义如下:(2)CVR预测损失函数使用加权策略,其中各符号如下:4.效果评价4.1离线评价一般对于回归模型,可以采用RMSE或相关性度量进行评价。这些评价指标的假设是所有样本标签的置信度是一致的。然而,在我们的应用场景中,预测目标值(CTR)存在不同的置信度。例如,对于视频锚点vv数高的视频,统计得到的CTR更接近真实值;而对于视频锚点vv数较低的视频,比如只展示一次,得到的CTR值波动很大,令人难以置信。基于这样的考虑,类似3.3.3节的方案,我们设计了一个加权的RMSE作为评价指标,比普通的RMSE更符合实际业务场景,可以用来比较不同算法的准确率离线模型。具体计算公式与3.3.3节的损失函数相同,只是将数据集换成了测试集。实验数据集我们使用dou+上“游戏发行商计划”的视频数据进行线下实验。采用Replay方式进行实验,预测20220128~20220216期间(共20天)每天的物料投放表现,即使用20220128之前的数据进行训练,然后预测20220128的效果,然后使用20220129之前的数据来训练和预测20220129的投放效果。等等(Replay评估方法可以参考王哲老师主编的《深度学习推荐系统》第7章)。我们的建模目标是分别预测每日点击率和转化率。目前的方案分别对CTR和CVR进行建模,未来会考虑引入多任务学习架构进行建模。样本量由于我们使用Replay方法测试20天的性能(对比20轮训练预测),不同日期预测使用的训练样本和测试样本会发生变化(只有预测前90天的数据日期用于训练)验证)。一般来说:CTR预测只采样dou+锚点展示数据(即anchorvv>0)的样本进行训练(否则得不到CTR),每轮预测的训练样本数约为20万,以及验证集约为50,000。测试集约为2000。最终总测试样本量为39411(共20天)。CVR预测只采样有dou+anchorclick数据(即anchorclickvv>0)的样本进行训练(否则得不到CVR)。每轮预测的训练样本数约为40000,验证集约为10000。500件。最终总测试样本量为9882(共20天)。实验结果在测试过程中,我们对时间因子建模和样本损失加权这两个主要的改进技巧进行了消融实验,以验证这两个改进可以有效提高模型预测效果。CTR预测和CVR预测的最终实验结果如下:从实验结果可以看出,在CTR预测和CVR预测的实验中,同时使用两种改进的tricks时,加权RMSE有下降比较明显。同时还发现,单独使用其中一个tricks时,加权的RMSE值会增加,说明这两个tricks需要同时使用。只加时间因子建模,不使用样本损失加权的情况最差(加权RMSE最高)。本例中,由于模型预测目标为日级目标,投放量较小,样本CTR和CVR波动较大。这时候如果不加入样本损失权重,效果会变得很差,效果还不如去掉时间因素的方法(直接预测整体效果,相对更稳定)。另外,以上离线评估都是基于加权RMSE指标给出的结果,这并不意味着我们的加权方案在实际情况下一定是最优的。由于我们的训练方法是加权的,因此有望在加权的RMSE指标上表现更好,这里我们只展示结果。至于加权RMSE指标是否与线上表现更匹配,以及是否有其他更合理的线下评估指标,值得进一步思考和验证。为了比较不同建模方法的效果,在线实验验证是最直接有效的方式。不过考虑到实验的时间成本和金钱成本,我们暂时还没有进行这方面的实验,以后有机会再做进一步的验证。4.2在线测评在线测评相对于线下测评的优势在于可以控制很多干扰因素,如投放设置、时间等,可以均衡不同材料的消耗,使得CPA(成本)等统一指标可以用于评估材料相比于模型的整体排名效果,我们往往更关注scoringhead材料的性能(是否能找到优质材料),但scoringhead材料可能之前没有被放置过.这时候在线实验就可以验证封头材料的效果了。当然,在线评估也有一些缺点:费时费钱,无法快速频繁地验证模型的效果。与线下数据相比,线上AB实验的测试量普遍较大为了验证模型与现有运营生筛选方式相比的优缺点,我们在内部游戏上进行了AB实验。在每次实验中,我们从模型评分材料和人工选择的材料中选择相同数量的材料进行投放,并控制预算、时间等变量相同,比较两组材料的性能。由于材质优化的目的是为了发现新的效果好的材质,并且交付的材质效果已经过验证,所以我们只使用没有上dou+的材质进行实验。在我们的建模解决方案最近的AB实验中,模型评分材料在CPA和高质量材料比率方面表现更好。两组材料的最新性能对比如下(实验组为模型选择材料,对照组为操作生手动选择材料):TherealCTRperformancelinechartsortedbypredictedCTRTherealCVRperformancelinechartsortedbypredictedCVRbyLinechartofrealCTCVRperformanceunderpredictedCTCVRsorting(CTCVR=CTR*CVR)*图中,模型材料和手动选择的材料用不同的颜色表示,并标记了重叠的材料(模型所在的部分)selectedmaterialsoverlapwithmanuallyselectedmaterials)和missingmaterials(在人工选择的材料中表现更好,但没有被模型挑出的材料)。从图中可以看出,虽然存在波动,但随着预测值的降低,整体真实表现仍然呈下降趋势,这表明预测值与真实表现之间存在相关性。另外可以看出,CTR模型的相关性很强,而CVR预测值排序的实际表现波动较大,说明CTR预测效果较好,CVR预测效果可能较差。针对CVR表现较差的情况,我们查看了这些CVR表现差异较大的素材,发现有一些素材的历史自然流CVR较低,但实验CVR较高,即历史表现与实验表现差异较大表现。.我们认为这与材料中的激活次数较少有关(大多数激活都是个位数),也许一个小的变化(比如多一两次激活)也会导致CVR有很大的变化,即,CVR波动可能较大。该模型将这些不稳定的历史CVR作为重要特征,容易受到不可信历史CVR的影响,导致模型预测出现偏差。后续可能需要考虑如何针对这些历史CVR特征不可信的情况(比如对训练样本中的特征进行随机扰动?)来提高模型的鲁棒性。5.总结和未来方向本文主要介绍我们在材料优化方向的一些思考和实践经验,包括总体建模方案、特征提取、样本构建过程。同时针对样本中存在的两个问题详细介绍了我们的解决方案。方式,并给出了模型效果的评价,??说明了当前方案的有效性。虽然我们的方案主要适用于抖音“游戏发行商计划”下的原生游戏创意智能筛选,但读者可以在此基础上进行改进,设计出更适合自己业务领域的素材筛选方案。希望本文的内容能给读者带来一些启发。此外,除了本文提出的技术方案外,还有一些可能的改进思路可以在未来进一步探索:1.建模目标:我们的解决方案是使用回归模型来预测单个投放指标。但回归模型在样本量较小时学习困难,MSE易受噪声点影响,建模时不利于权衡多个指标。所以这里还有另外两个构建建模目标的思路:1)建立物料分类目标,比如根据业务经验将物料分为优质/低质物料,得到二元分类目标;2)建立pairwisepredictiontargets,即预测两种材料中哪种更好。2.模型结构:本文更侧重于业务的特点和示例构建过程,对模型结构的讨论不多。但是在确定了特征样本之后,还需要尝试更多不同的模型结构。比如可以尝试使用DIFM、DeepFEFM等基于FM的深度推荐模型架构来探索特征交集,或者在素材、作者、用户组成的异构图结构上使用GTN、LightGCN等图网络模型,和游戏。使用高阶邻居结构来提取特征。同时,训练好的深度模型可以在基础模型的基础上针对不同的游戏或类别进行微调,可能会取得更好的效果。另外,我们在实践中发现,CVR等后端指标的预测效果比较差,可能与数据稀疏有关。可以尝试引入PLE等多任务学习架构进行改进。3.特征:我们方案中用到的特征很多,但是材料优化业务本身的样本量比较小,高维特征容易导致模型过拟合(尤其是后面引入复杂模型后).有些特征可能帮助不大,可以通过模型得到的特征重要性和消融实验来确定各部分特征的重要性,去除无效特征。4.业务角度:目前的物料优化目标是寻找投放效果更好的物料。不过可能有些素材是有抖音自然推荐带来的流量的。即使没有dou+heating,他们也能产生很好的流量效果,就是这些素材的效果增益可能不会很大,所以可以试试因果构建的方式,用建模的方式,预测投放效果的提升值材料的体积,从而找到能够带来最大收益的材料。
