模型在广告流量反欺诈风控中的应用

时间：2023-03-16 23:33:54 科技观察

一、广告反欺诈简介1.1广告流量反欺诈定义广告流量欺诈，即媒体通过各种欺骗手段获取广告主的利益。作弊流量主要来自：模拟器或被篡改设备的广告流量；真实设备，但流量由群控控制；1.2常见作弊行为机器行为：人工行为：素材交互元素诱导点击、媒体渲染文案诱导点击、突然弹窗、误点击等1.3常见作弊类型展示作弊按照广告投放过程的先后顺序：媒体同时向同一个广告位投放多个展示广告，并向广告主收取展示多个广告的费用。点击作弊：通过脚本或电脑程序模拟真实用户，或雇佣、激励用户点击，产生大量无用的广告点击，获取广告主的CPC广告预算。安装作弊：通过测试机或模拟器模拟下载，通过人工或技术手段修改设备信息，通过SDK发送虚拟信息，模拟下载等。2.广告流量反作弊算法体系2.1算法模型应用后台智能风控业务风控，利用大量行为数据建立模型，识别和感知风险，与规则和策略相比，显着提高识别的准确率和覆盖率和稳定性。常见的无监督算法：密度聚类（DBSCAN）隔离森林（IsolationForest）K-means算法常见的有监督算法：逻辑回归（logistic）随机森林（randomforest）2.2广告流量模型算法体系分为四层：平台层：主要基于spark-ml/tensorflow/torch算法框架，业务风控建模采用开源和定制算法。数据层：在vaid/ip/媒体/广告空间等多粒度下构建请求、曝光、点击、下载、激活等多个转化过程的画像和特征体系，为算法建模服务。业务模型层：基于行为数据特征和画像数据，构建点击反作弊审计模型、请求点击风险预估模型、媒体行为相似群体模型、媒体粒度异常感知模型。接入层：模型数据应用，线下点击反作弊模型审计结果和策略识别审计结果汇总，同步业务下游惩罚；媒体异常感知模型主要用作候选人名单同步检查平台和自动检查。3、算法模型应用案例3.1素材交互诱发感知背景：在广告素材中加入虚拟的X关闭按钮，会导致用户在关闭广告时点击虚假的X按钮，造成无效点击流量，影响用户体验；左图为配送的原始素材，右图为用户点击坐标绘制热力图，虚X会在用户关闭广告时造成无效点击流量。模型识别感知：1.密度聚类（DBSCAN）：首先定义几个概念：邻域：对于任意给定的样本x和距离ε，x的ε邻域是指到x的距离不超过ε的样本集合；核心对象：如果样本x的ε邻域至少包含minPts个样本，则x是核心对象；densitydirect：如果样本b在a的ε邻域内，且a是核心对象，则称样本b由样本xdensityDirect组成；densityreachable：对于样本a，b，如果有样本p1，p2，...，pn，其中p1=a，pn=b，并且序列中每个样本的密度与其前一个样本直接相同，则为表示样本a和b是密度可达的；密度连通：对于样本a和b，如果存在使a和k密度可达的样本k，且k和b密度可达，则a和b密度连通；定义的聚类概念是：由密度可达关系导出的最大密度连通样本集为最终聚类的一个聚类。2.应用算法感知误触广告：①首先将点击数据按照分辨率和广告位进行分组，过滤掉幅度较小的分组；②对每个group，使用密度聚类算法进行Clustering，设置邻域密度阈值为10，半径ε=5，进行聚类训练；③对于每组，经过密度聚类后，过滤掉聚类面积较小的簇。具体训练代码如下：④效果监控和打击，针对挖掘出来的集群，关联点击后的落后指标，对转化指标异常的广告位进行复检，重新处理有问题的广告位。检查。3.2点击反作弊模型3.2.1背景建立广告点击链接的欺诈点击识别模型，提高反作弊审计的覆盖率，发现高纬度隐藏的作弊行为，有效补充点击的战略反作弊审计场景。3.2.2构建过程(1)特征构建是基于token的粒度，在事件发生前计算设备、ip、媒体、广告位的粒度特征。频率特征：过去1分钟、5分钟、30分钟、1小时、1天、7天等时间窗口的曝光、点击、安装行为特征，即对应的均值、方差、离差等特征；基本属性特征：媒体类型、广告类型、设备合法性、ip类型、网络类型、设备价值等级等。2.模型训练及效果①样本选择：样本平衡处理：在线作弊样本和非作弊样本不平衡，对非作弊样本进行降采样，使作弊和非作弊样本达到平衡（1:1）鲁棒性样本选择：网络非作弊样本规模较大，群体行为多样且分布不均。为了覆盖小样本训练上线后的所有行为模式，采用K-means算法对上线非作弊样本进行分组，然后对每组按比例进行降采样，得到训练非作弊样本。作弊样本。②特征预处理：统计每个特征的缺失率，去除缺失率大于50%的特征；特征贡献度筛选，计算每个特征对预测标签Y的区分度，过滤掉贡献率低于0.001的特征；特征稳定性模型上线前，选取最大和最小时间段的样本，计算两个时间段内每个特征的PSI值，过滤掉PSI值（PopulationStabilityIndex）大于0.2的特征，以及保留具有更好稳定性的功能。③模型训练：采用随机森林算法对点击广告作弊行为进行分类。随机森林有很多优点，例如：（1）可以处理非常高维的数据，不需要做特征选择；GeneralizationError）采用无偏估计，模型泛化能力强；(3)训练速度快，容易做成并行的方法（训练时树是相互独立的）；(4)抗过拟合能力比较强；超参数搜索优化，使用ParamGridBuilder，配置max_depth（树的最大深度），numTrees（树的数量）等超参数搜索优化最优超参数。④模型稳定性监控：模型上线后，如果特征随时间发生迁移，推理时的特征与训练时的特征分布存在差异，需要监控模型的稳定性并迭代更新;首先，将当前版本的训练样本存档，计算推理时间数据和训练时间数据的每个特征对应的PSI值，计算PSI值（PopulationStabilityIndex）用于每天可视化和监控告警。⑤模型可解释性监控：模型上线后，为了更直观地定位命中模型的风险原因，对推理数据的可解释性进行监控；即计算每条数据对预测标签的影响程度；使用Shapley值（ShapleyAdditive解释）解释特征如何影响模型的输出，计算形状值并输出到可视化平台，用于日常运行分析。3.3点击序列异常检测3.3.1背景通过用户每小时的点击序列，挖掘恶意行为对应的设备，挖掘和检测远离正常行为占大部分的异常模式用户群，比如只有低频的其他用户在早上0~6点及时没有点击行为的异常群体，或者有异常模式的用户，比如每小时均衡的点击行为等。3.3.2构建过程（1）特征构建以设备为主体用户，统计过去1/7/30天每小时的点击量，形成1*24小时、7*24小时、30*24小时的点击序列，构造的特征在时间尺度上具有特征完备性，且连续条件为每个特征数据，适用于异常检测算法。(2)模型选择孤立森林离群点检测算法。该算法基于两个理论假设，即异常数据占总样本量的比例很小，异常点的特征值与正常点差异很大。检测分布稀疏且远离高密度群体的点。比如下图，可以直观的看出，相对更异常的Xo点，只需要4个切点就可以从整体上分离出来，也就是“孤立”了，而更多的正常的Xi点被从整体上分离了出来整经过11个师。(3)模型训练采用IsolationForest算法。为了更好的覆盖，对各种粒度的流量进行异常检测训练。①对所有平台流量，训练异常感知模型，设置异常样本比例cnotallow=0.05；模型，设置异常样本比例cnotallow=0.1。(4)感知监测异常分值定义：如果异常分值接近1，则一定是异常点；如果异常分数远小于0.5，则一定不是异常点；异常筛查：筛查异常评分大于0.7的用户为高危人群，介于0.5~0.7之间的人为中危人群。针对高风险人群，在审计平台进行人工二次审计；案例分析：案例①XX，2022年，7*24小时点击异常检测，可疑恶意用户A，过去7天的大部分时间，每小时产生的点击记录远超正常用户。（备注：features中的每个点代表用户一小时的点击）案例②2022年XX月1*24小时点击序列异常检测，可疑恶意用户B，基本只在凌晨产生点击，基本没有其他白天的点击行为。4.总结在流量反作弊领域，随着反制手段的升级，算法模型可以更好地发现和挖掘黑产隐藏的作弊模式；在广告流量反作弊领域，我们采用有监督和无监督算法模型，从作弊流量识别和异常流量感知等方面进行探索和挖掘应用，有效提升识别能力，发现更复杂的异常行为模式.未来，该算法模型将在机器流量识别中探索更多实际应用。

上一篇：2020年6大医疗保健安全威胁

下一篇：支付宝有大手笔！花呗、借呗要脱钩了，余额宝也要遭殃了

模型在广告流量反欺诈风控中的应用相关文章