一、广告反欺诈简介1.1广告流量反欺诈定义广告流量欺诈,即媒体通过各种欺骗手段获取广告主的利益。作弊流量主要来自:模拟器或被篡改设备的广告流量;真实设备,但流量由群控控制;1.2常见作弊行为机器行为:人工行为:素材交互元素诱导点击、媒体渲染文案诱导点击、突然弹窗、误点击等1.3常见作弊类型展示作弊按照广告投放过程的先后顺序:媒体同时向同一个广告位投放多个展示广告,并向广告主收取展示多个广告的费用。点击作弊:通过脚本或电脑程序模拟真实用户,或雇佣、激励用户点击,产生大量无用的广告点击,获取广告主的CPC广告预算。安装作弊:通过测试机或模拟器模拟下载,通过人工或技术手段修改设备信息,通过SDK发送虚拟信息,模拟下载等。2.广告流量反作弊算法体系2.1算法模型应用后台智能风控业务风控,利用大量行为数据建立模型,识别和感知风险,与规则和策略相比,显着提高识别的准确率和覆盖率和稳定性。常见的无监督算法:密度聚类(DBSCAN)隔离森林(IsolationForest)K-means算法常见的有监督算法:逻辑回归(logistic)随机森林(randomforest)2.2广告流量模型算法体系分为四层:平台层:主要基于spark-ml/tensorflow/torch算法框架,业务风控建模采用开源和定制算法。数据层:在vaid/ip/媒体/广告空间等多粒度下构建请求、曝光、点击、下载、激活等多个转化过程的画像和特征体系,为算法建模服务。业务模型层:基于行为数据特征和画像数据,构建点击反作弊审计模型、请求点击风险预估模型、媒体行为相似群体模型、媒体粒度异常感知模型。接入层:模型数据应用,线下点击反作弊模型审计结果和策略识别审计结果汇总,同步业务下游惩罚;媒体异常感知模型主要用作候选人名单同步检查平台和自动检查。3、算法模型应用案例3.1素材交互诱发感知背景:在广告素材中加入虚拟的X关闭按钮,会导致用户在关闭广告时点击虚假的X按钮,造成无效点击流量,影响用户体验;左图为配送的原始素材,右图为用户点击坐标绘制热力图,虚X会在用户关闭广告时造成无效点击流量。模型识别感知:1.密度聚类(DBSCAN):首先定义几个概念:邻域:对于任意给定的样本x和距离ε,x的ε邻域是指到x的距离不超过ε的样本集合;核心对象:如果样本x的ε邻域至少包含minPts个样本,则x是核心对象;densitydirect:如果样本b在a的ε邻域内,且a是核心对象,则称样本b由样本xdensityDirect组成;densityreachable:对于样本a,b,如果有样本p1,p2,...,pn,其中p1=a,pn=b,并且序列中每个样本的密度与其前一个样本直接相同,则为表示样本a和b是密度可达的;密度连通:对于样本a和b,如果存在使a和k密度可达的样本k,且k和b密度可达,则a和b密度连通;定义的聚类概念是:由密度可达关系导出的最大密度连通样本集为最终聚类的一个聚类。2.应用算法感知误触广告:①首先将点击数据按照分辨率和广告位进行分组,过滤掉幅度较小的分组;②对每个group,使用密度聚类算法进行Clustering,设置邻域密度阈值为10,半径ε=5,进行聚类训练;③对于每组,经过密度聚类后,过滤掉聚类面积较小的簇。具体训练代码如下:④效果监控和打击,针对挖掘出来的集群,关联点击后的落后指标,对转化指标异常的广告位进行复检,重新处理有问题的广告位。检查。3.2点击反作弊模型3.2.1背景建立广告点击链接的欺诈点击识别模型,提高反作弊审计的覆盖率,发现高纬度隐藏的作弊行为,有效补充点击的战略反作弊审计场景。3.2.2构建过程(1)特征构建是基于token的粒度,在事件发生前计算设备、ip、媒体、广告位的粒度特征。频率特征:过去1分钟、5分钟、30分钟、1小时、1天、7天等时间窗口的曝光、点击、安装行为特征,即对应的均值、方差、离差等特征;基本属性特征:媒体类型、广告类型、设备合法性、ip类型、网络类型、设备价值等级等。2.模型训练及效果①样本选择:样本平衡处理:在线作弊样本和非作弊样本不平衡,对非作弊样本进行降采样,使作弊和非作弊样本达到平衡(1:1)鲁棒性样本选择:网络非作弊样本规模较大,群体行为多样且分布不均。为了覆盖小样本训练上线后的所有行为模式,采用K-means算法对上线非作弊样本进行分组,然后对每组按比例进行降采样,得到训练非作弊样本。作弊样本。②特征预处理:统计每个特征的缺失率,去除缺失率大于50%的特征;特征贡献度筛选,计算每个特征对预测标签Y的区分度,过滤掉贡献率低于0.001的特征;特征稳定性模型上线前,选取最大和最小时间段的样本,计算两个时间段内每个特征的PSI值,过滤掉PSI值(PopulationStabilityIndex)大于0.2的特征,以及保留具有更好稳定性的功能。③模型训练:采用随机森林算法对点击广告作弊行为进行分类。随机森林有很多优点,例如:(1)可以处理非常高维的数据,不需要做特征选择;GeneralizationError)采用无偏估计,模型泛化能力强;(3)训练速度快,容易做成并行的方法(训练时树是相互独立的);(4)抗过拟合能力比较强;超参数搜索优化,使用ParamGridBuilder,配置max_depth(树的最大深度),numTrees(树的数量)等超参数搜索优化最优超参数。④模型稳定性监控:模型上线后,如果特征随时间发生迁移,推理时的特征与训练时的特征分布存在差异,需要监控模型的稳定性并迭代更新;首先,将当前版本的训练样本存档,计算推理时间数据和训练时间数据的每个特征对应的PSI值,计算PSI值(PopulationStabilityIndex)用于每天可视化和监控告警。⑤模型可解释性监控:模型上线后,为了更直观地定位命中模型的风险原因,对推理数据的可解释性进行监控;即计算每条数据对预测标签的影响程度;使用Shapley值(ShapleyAdditive解释)解释特征如何影响模型的输出,计算形状值并输出到可视化平台,用于日常运行分析。3.3点击序列异常检测3.3.1背景通过用户每小时的点击序列,挖掘恶意行为对应的设备,挖掘和检测远离正常行为占大部分的异常模式用户群,比如只有低频的其他用户在早上0~6点及时没有点击行为的异常群体,或者有异常模式的用户,比如每小时均衡的点击行为等。3.3.2构建过程(1)特征构建以设备为主体用户,统计过去1/7/30天每小时的点击量,形成1*24小时、7*24小时、30*24小时的点击序列,构造的特征在时间尺度上具有特征完备性,且连续条件为每个特征数据,适用于异常检测算法。(2)模型选择孤立森林离群点检测算法。该算法基于两个理论假设,即异常数据占总样本量的比例很小,异常点的特征值与正常点差异很大。检测分布稀疏且远离高密度群体的点。比如下图,可以直观的看出,相对更异常的Xo点,只需要4个切点就可以从整体上分离出来,也就是“孤立”了,而更多的正常的Xi点被从整体上分离了出来整经过11个师。(3)模型训练采用IsolationForest算法。为了更好的覆盖,对各种粒度的流量进行异常检测训练。①对所有平台流量,训练异常感知模型,设置异常样本比例cnotallow=0.05;模型,设置异常样本比例cnotallow=0.1。(4)感知监测异常分值定义:如果异常分值接近1,则一定是异常点;如果异常分数远小于0.5,则一定不是异常点;异常筛查:筛查异常评分大于0.7的用户为高危人群,介于0.5~0.7之间的人为中危人群。针对高风险人群,在审计平台进行人工二次审计;案例分析:案例①XX,2022年,7*24小时点击异常检测,可疑恶意用户A,过去7天的大部分时间,每小时产生的点击记录远超正常用户。(备注:features中的每个点代表用户一小时的点击)案例②2022年XX月1*24小时点击序列异常检测,可疑恶意用户B,基本只在凌晨产生点击,基本没有其他白天的点击行为。4.总结在流量反作弊领域,随着反制手段的升级,算法模型可以更好地发现和挖掘黑产隐藏的作弊模式;在广告流量反作弊领域,我们采用有监督和无监督算法模型,从作弊流量识别和异常流量感知等方面进行探索和挖掘应用,有效提升识别能力,发现更复杂的异常行为模式.未来,该算法模型将在机器流量识别中探索更多实际应用。
