黑简介:互联网黑色的生产正在不断发展和发展,作弊模型逐渐变得大规模和工业化,并且帮派越来越猖ramp。在公司中,百度帐户安全策略团队与其在帐户安全领域的优势相结合,以建立处理大量数据并在黑人生产帮派中具有丰富的可伸缩性帮派的能力。练习应用程序并不断扩大着陆场景。同时,它还探讨了在Tu Nuoduo网络等前沿领域中相关技术的应用值,并致力于建立高效且完全完整的风险控制能力。
全文是3770个单词,预计阅读时间为14分钟。
“中国互联网发展的统计报告”表明,截至2021年6月,中国网民的规模达到了10.11亿。基于如此庞大的用户群体,互联网业务继续迅速发展。,它催生了一系列隐藏在隐藏角落的黑色 - 灰色产品。随着技术的进步,黑色和灰色的生产也从最初的研讨会式作弊方法变为过程,大规模和工业作弊模型。目前,互联网上的黑色和灰色产品的规模也超过了1000亿元人民币,并且已经加深了。在业务场景中进行陈述是帐户系统,然后输入特定的业务场景以进行欺诈作弊行为,例如订购,羊毛,排水,欺诈,洗钱等。Black -to -Gray生产行为不仅导致互联网公司损失货币,而且从长远来看,它将影响用户的服务经验和财产安全,威胁着业务的可持续发展和健康的发展。
为了有效地打击黑人生产作弊帮派,确保公司的基本安全性,安全策略团队从帐户维度开始,积极构建基于地图的反黑色生产作弊体系结构,并不断探索与图形相关的应用程序在风险控制和作弊场景的应用中,技术基于图形技术。
众所周知,在实际业务场景中,黑人产生的作弊群体通常受到实际条件(例如资源和成本)的限制,并且经常发生。这已经成为挖掘黑人生产的帮派的重点。传统方法是:可以通过统计特征因子筛选方法筛选来筛选一些相关帐户,但是这种方法很难进一步挖掘整个相关的作弊帮派。只有案例可以解决这种问题。below传统手段的连接图与基金会挖掘作弊团伙之间的差异(案件的相关数据已被贬低):
图1案例分析
如图1的左侧所示,可以在图表中看到案例帐户使用相当数量的特征因子和在这种情况下使用的设备。这些关系被转换为图片结构的图结构(帐户:蓝色标记,特征,特征特征类似器:红色标记,设备:绿色标记)。通过开挖的这些相关因素,使用这些可疑因素的一组帐户可以获得。这实际上是tu -labu帮派发掘的核心思想,但是通过这种方法挖掘整个帮派需要很多时间。实际上,如图2所示,帐户只是冰山一角在整个黑人生产的帮派中。可以想象在传统方法中挖掘的困难。
图-2属于帮派的案件
上面的示例显示了帮派发掘中相关地图的优势。与现有业务场景相关,团队建立了一个相关的地图框架,涵盖了不同的方案,不同的粒径(天空,周,每月)和不同的特征关系(均质组成,异质组成)各种复杂的边界关系特征。相关的地图框架如图3所示。
图3相关地图基础架构
实际生产环境中的地图必须处理数十亿个节点和边缘数据。这是一个巨大的挑战。在重新设计和优化整个算法计算过程之后,该体系结构可以处理大量数据并具有丰富的可扩展性。通过简单的配置,这是简单的配置。也就是说,在不同的异质条件下的帮派也可以支持扩大新业务方案的情况。通过基于原始业务数据的Cross -Scenario集成,结合了帐户系统独有的帐户安全信息,您可以更全面地利用和分析黑人生产帮派。此外,还可以通过使用使用相关地图也已在实际业务中实施。
在实际业务中,使用相关图表可以发现与案件有关的可疑帮派,还可以监视业务中出现的异常帮派的作弊行为。在新近连接的业务场景中,存在通过会员地图挖掘出的可疑帮派存在。正是由于特征关联将不同的帐户绑定以绑定不同的帐户。问题:
因此,还有更多与图形相关的实践和探索。
为了响应关联地图中存在的问题,尽管可以通过某些条件限制,定义权重等过滤一些,以减慢上述问题对整个相关图的影响,但该尺寸 - 尺寸 - 拟合- 所有方法都将处理复杂的边界关系,多个节点类型的多个节点类型。该地图很难正确地实现。因此,在-Depth Graph Technology中,还需要进行更多探索 - 帮派中节点的表示。
该节点表明,通过深度学习方法将单个帐户节点的特征信息抽象为固定维矢量。该向量表明,该帐户号可以通过使用矢量化的帐户特征(例如节点:nodebreast atected预测,节点的类别,节点的分类等)来进一步进行下游工作。仅考虑帐户节点本身的特征信息,还考虑图表节点上图中图中的结构信息,主要是该节点的邻居信息和边框关系信息。
团队调查各种节点以表示模型方法,例如:DeepWalk [1],Line [2],Node2Vec [3]和其他随机步行方法,包括GCN [4],GAT [5],GraphSage [6 6 6 6 6],Pinsage [7]和其他方法。
结合帐户业务场景稀疏特征的特征,节点的大小很大,没有明显的标签,因此要通过链接预测任务来训练节点来表示模型。考虑到整个数据和动态变化的总体数据,图形模型用于Nodesthe Inter -Link预测的节点,首先,目标节点用于基于随机步行的局部采样来获取其邻居节点。两个跳跃目标节点的两个跳跃的邻居信息通过图形结构化的两个层结构化目标节点,并结合两个目标节点的交叉指纹矢量,以获得预测结果。通过半间隔学习,跨透明度是用作损失函数,与迷你批次训练方法的训练模型相结合。模型体系结构如下图4所示。
图4链接预报框架
例如,公式(1)中显示的模型输入的节点特征,此外,需要配对sub -daigrangry结构和目标节点的目标节点关系。通过公式(2-4)是其邻居节点在模型的第一层中的融合过程。
该模型通过生成目标节点关系对的点积累了点积累。图(5)所示。
分数= Sigma(E_I子弹E_J),(5)
为了比较它,同时实现了MLP和GCN的基本模型。在相同的超偏见的条件下,生成了相同的帐户表示向量。为了直观地显示模型的模型以生成向量的区别,在此处选择了关联的映射。通过T-SNE和UMAP尺寸进行视觉比较。T-SNE可视化结果如下。TU-5是基于图形和图形生成的节点的T-SNE维尺寸还原的三维空间分布。与TU-6和TU-7相比,基于MLP和GCN生成节点向量的矢量的三维分布。颜色数重叠),图形中每个帮派的颜色标签地图更紧凑,不同的帮派区分不同的帮派,而较少有重叠颜色标签的帮派更少。(注意:帮派标签太多和有限的颜色。
图-5基于图形代表生成的节点
图-6基于MLP生成的节点表示T-SNE维度显示显示
基于GCN代表生成的图-7节点
在获得节点表示模型后,可以基于此执行各种下游任务,包括预测节点之间的相关性,节点分类,生成帮派的表示,节点聚类等等。业务为示例,与仅使用基本帐户维度统计信息的XGBoost分类模型相比,该模型进一步增加了节点表示矢量特征,其初步测试分类效果达到90+%。我相信,在对帮派数据进行了全面量化培训之后,将进一步改善该模型的实际帮派分类和定性效果。
本文介绍了风险控制反治疗中与图形相关技术的实践和探索。有些已应用并取得了良好的结果。需要进一步解决相应或更少的问题。
基于图形技术的整个风险控制反治疗框架需要不断改进。不仅上述技术功能,而且更多的技术还需要在深度探索,研究和着陆应用中进行。
参考:
[2] Tang J,Qu M,Wang M等。线:大规模信息网络嵌入[C] //第24届国际世界网络会议论文集。2015:1067-1077。
[4] KIPF T N,Welling M.半避免卷积网络的半监督分类[J]。ARXIV预印型ARXIV:1609.02907,2016。
[5]Velivkovi?P,Cucurull G,Casanova A等。图形关注网络[J]。ARXIV预印型ARXIV:1710.10903,2017。
[6] Hamilton W L,Ying R,Leskovec J。大图上的归纳表示学习[C] //第31届国际会议论文集
然后,然后
[8] Chen T,He T,Benety M等。XGBOOST:极端梯度提升[J]。R软件包版本0.4-2,2015,1(4):1-4。
- - - - - 结尾 - - - - - -
作者:百度极客说