本文主要关注小红书社区和电商风控的最佳实践领域——刷量治理。作为一个内容社区,小红书的月活跃用户数自2021年10月突破2亿以来一直稳步增长。随着不断积累的UGC内容资产,小红书正在成为越来越多用户的多元生活方式聚集地。这些都让小红书成为黑产的对象。从用户的角度来看,安全需要在内容平台上解决两个问题:保证用户的信息在网络上是安全的,保证用户在网络上获得的信息是真实的。刷卡作为社区和交易中常见的作弊手段,会导致用户获取的信息不真实。无论是笔记阅读、点赞、评论等社区流量,还是商品浏览、销售等电商数据,通过刷卡获取都会破坏我们的内容安全,影响用户对平台的信任。一、走进非法行业了解刷量的实现1.1什么是刷量?从初级理解,刷量可以理解为数据造假,例如通过作弊手段获取虚假的点赞、收藏等数据,以获取更高的商业价值。在电商场景,刷量更多集中在商户维度,如雇佣刷量用户、利用虚假物流构建交易、虚构高GMV等。为了深入了解数据共享的本质,我们走访了多家专注于数据共享产业链的公司。以下是对其中三种及其实现方式的介绍:1.1.1提供数据共享服务的群控公司,主要基于刷量机的群控设备,包括越狱机和普通iPhone。他们利用了苹果的安全机制,比如苹果手机的镜像封装:将整个手机中的客户端包括用户的登录状态打包存储为一个文件,然后将这些文件存储在一个沙盒环境中。基于该方法,利用单个手机还原一批沙箱环境和账号,达到了良好的群控效果。1.1.2账号维护引流公司这是一家通过引流销售高仿服装的电商公司。主要方法是通过虚拟办公卡注册账号,然后维护账号。当使用的账号被标记为黑色时,需要开辟附近的线下二手手机店,以更低的价格(5-10元)更换被标记的手机。拿到全新的设备后,聘请一群真人,注册一个账号,继续发布和运营内容。最后做品牌导流,收钱。据了解,一个账号可吸引数十万gmv。考虑到账户数量,公司的收入还是相当可观的。1.1.3众包数据挖掘公司通常有专业机构在各大平台搜索任务,招聘人力兼职。兼职者可以通过使用自己的账户完成任务来获得报酬。1.2刷量重新定义刷喜欢和刷量一样吗?有,但不完全,我们需要从更高的角度来理解刷量。在小红书的社区环境中,我们将用户分为两类:内容发布者和内容消费者。内容发布者负责为消费者制作和提供高质量的内容。另一方面,内容消费者支付时间成本、机会成本、信息成本、情感成本以及浏览内容所包含的信息价值。也就是说,发布者和消费者实际上是在做一种交易,内容平台是一个市场经济平台。有了市场,就必须有流通的货币。在内容社区中,货币是阅读、点赞、收藏、评论等的可衡量单位。在这个类比中,刷单相当于制造假币,发布虚假内容类比假货,会导致通货膨胀。整体市场。这些代币虽然存在于二级市场(社区),但最终会与一级市场(电商、广告)进行交易,实现流量的变现。对于小红书来说,刷卡金额等同于假币,治理上需要不遗余力。2、风控面临的挑战既然已经被认定为假币,为什么刷量还长期存在?这里不得不提到反作弊面临的几个挑战:识别难、治理难、巩固难。2.1识别困难识别困难可以概括为三个部分:终端不可控、AI对AI、真人对真人。2.1.1终端不可控在社区刷屏场景中,终端其实是不可控的,对手很难判断客户端是普通用户还是黑品。从理论上讲,如果沟通方式不可信,就没有办法可信。我们曾经尝试逆向某个接口协议攻击工具,将里面的代码进行反汇编,通过破解签名算法冒充我们的客户端向服务端发送请求。这是迄今为止最简单的方法,其他方法更难管理。(*协议攻击)2.1.2AIvs.AI虽然风控在不断完善,AI计算已经被大规模用于战斗,但我们的对手也在不断突破和升级。以黑汇出品的群控方式为例。利用三方授权的漏洞,在公众平台批量生成三方账号,利用三方账号完成小红书账号的注册。然后使用UI的自动脚本点击工具控制点击和按钮,在手机端操作,批量采集点赞和关注。目前流行的方法是使用4G手机/EC20芯片进行混合攻击,避免我们识别黑IP。AI智能在风控方面的推进缓慢。原因是AI算法擅长解决一阶问题,比如一张图片是否包含支付二维码。但在实际场景中,我们需要判断的是聊天内容是否存在风险。从人的角度来看,在经常联系的朋友之间发送支付二维码是没有风险的,但是在刚刚聊天的陌生人之间发送支付二维码是一种高风险行为。这里的风险取决于支付二维码+陌生人聊天两级信息的聚合。与人类相比,AI很难自动判断这两个维度的聚合和识别,因此需要大量的人为干预。2.1.3通过线上群聊、线下小任务、甚至正规招聘渠道进行人对人招聘人员。这些人混杂在真实用户中,有真实正常的行为。到了一定的时候,刷的多少就会被扣钱,这让整个鉴定变得异常复杂。2.2治理难在小红书平台上,内容社区分为K(博主)、B(品牌/商家)、MCN机构(中介)、C端(普通用户)。长期困扰我们的问题是,到底是谁在做刷单牟利的行为,是K端、B端、MCN端还是C端?那个人此刻的行为是好是坏?管理时,如何避免意外伤害?真实情况是每一端都有参与刷的可能。品牌发布营销需求后,MCN接受任务,分发给各大平台的K,让K发布相关笔记吸引用户,最终达到营销推广的目的。在这个过程中,MCN为了完成品牌方获取利润的曝光需求,就有了产生流量的动力。同样,为了完成MCN下发的任务,弥补流量不足的问题,K也有了刷新的动力。品牌方的不同角色,比如运营方,也可能为了完成公司的任务而使用体量。而一些竞争对手,为了陷害同行,还会拉拢C端用户登陆笔记本,从而导致风控和精品博主和笔记本。更麻烦的是,整个群里会混杂大量真人,刷卡行为很难准确区分。就算能辨认出来,又如何判断这个人现在的行为是否正常呢?会有召回和意外伤害的问题。既要保证彻底召回,又不能误伤批量用户,影响业务的顺利开展。同时,平台的冷启动也是需要解决的问题。比如新的小商户为什么要加量,因为前期小商户在物流、产品质量、价格控制等方面都比不上大商户。即使用户无意中发现新商家的商品,销量为0,买家不信任,最终失去成交的机会。这也是小商家产生的刷量需求。2.3整合困难。任何安全运营,最终都会陷入投入产出比的问题。在刷内容的场景下,由于没有直接的收益计算,很难衡量风控投资的ROI收益。第二个难点是防控成效的衡量。前面我们讲了CTR,那么CTR的值是否足以判断风控的效果呢?答案是否定的。防控成果将涉及多个维度。在我们处理的欺诈交易案例中,很大一部分欺诈交易来自真人众包。防控效果是通过用户维度还是异常行为数量来判断?刷量治理是人与人之间的对抗。一种方式的风控和治理之后,对手会用新的方法和技术开始下一轮的攻击,所以防控的效果是不断波动的。我们需要继续对抗。三、小红书治理实践小红书是一个真诚分享、友好互动的平台。对我们来说,比技术能力更重要的是平台的态度。这也意味着我们对刷单行为的态度是严厉打击零容忍。在安全技术部内部,我们提出了三个解决方案,分别是:基于引擎的风控基础架构、基于流程的风控对抗、智能化的风控识别。3.1风控基础设施引擎化据国内统计,黑色产业从业人员150万,远远超过我们的风控技术团队。小规模如何对抗全产业链?我们提出的解决方案可以快速迭代并且易于试错。风控基础设施以引擎为基础,工程引擎打通整个上下游环节,提升风控和对抗的整体效率。这里的风控引擎不仅仅是指在一个独立的节点上部署策略,还包括整个链路的信息接入,利用上下游信息识别风险。以近线平台为例,我们对现有的准实时任务进行了高度抽象,让用户可以在短时间内通过组装任务快速推出规则,从而提高效率。平台的引擎能力可以在后台结合多个数据源和历史数据,在相对实时的情况下提供风控识别结果,同时结合行为序列分析、图形分析和算法模型,提高风险控制的有效性。风险控制能力。近线平台弥补了单一规则识别的局限性,与原有的实时风控系统融合,是对其他防控手段的有效补充。近线平台支持综合处理数据和事件的能力,也支持多源数据接入。它具有灵活的数据处理能力,更重要的是,它提供了可以支持算法、策略和用户自定义数据处理逻辑的功能。在过程工程中释放人力并提高准确性。下图展示了近线系统的整体系统和架构:从设备激活->账号注册\登录->笔记/商城浏览->交互->内容发布/购买商品等,目前我们已经覆盖用户全场景行为,在获取业务数据后,将实时请求、准实时流、离线数据接入风控引擎,实现多场景级联防,对获取的数据进行处理和挖掘身份特征、网络环境、时序特征和累积因素。,输入到决策分析层。此外,实现识别能力的迁移,将新识别的风险点沉淀,复用到其他风险场景中。除了风控引擎,还统一了通用服务网关端(edith2.0),整体提升新服务的接入效率和稳定性,实现服务的分钟级接入。3.2风控交锋过程业务风控最大的难点就是交锋。无论作弊采取何种形式,唯一不变且始终存在的就是对抗。标准化的流程不一定能保证立即得到最优解,但可以帮助我们分析和暴露问题,建立反馈的正向迭代链接,提高我们的效率。以智能技术驱动的运营沉淀能力,在小红书的风控团队中逐渐形成了可行的流程体系,并不断运转。整个过程可分为五个步骤:风险感知、能力建设、风险识别、风险处置和效果评估。风险感知:依托指标体系更快发现风险,变被动救火为主动防御,驱动能力建设和后续流程。能力建设:建立面向对抗的快速反应能力,快速接入灵活可配置的风控体系。风险识别:提高识别准确率,建立特征体系,挖掘作弊特征,对缺失能力进行需求反馈。风险处置:选择更有效的方式降低对抗成本,拦截行为,限制票据流量,处置用户,并能形成策略迭代的有效反馈。效果评估:也依托指标体系评估风险等级的变化,如作弊漏报、黑品服务价格、账号价格等,并可对误杀漏报进行反馈。发现新的情报或者感知到新的作弊攻击后,按照这个流程进行操作,分析判断这个过程中出了什么问题:是情报发现不够,还是情报转化为识别的速度不够快,或识别处置召回缺陷。以情报行动中的购买量分析为例。通过情报或价格波动发现非法服务后,进行购买测试,然后分析方法,选择合适的策略或模型进行识别和处置。效果的评估需要通过二次购买来完成。或者对非法生产的价格进行持续监控。当识别处置反馈意见落实到位且效果评价达标时,即认为本次流程结束。3.3风控智能识别从对抗程度和防控力度来看,风控智能识别环节大致可以分为三个阶段:第一阶段是非法生产的低成本机器方式,基于主体的行为在第二阶段,在与黑品的高频对抗中,根据群体特征进行群体挖掘;第三阶段,在现实生活中的刷量识别中,基于刷量社区的关联关系,基于图的算法发现主体关系。目前,这三个阶段已经在小红书落地并实践。3.3.1行为特征分析流量数据作为一种表现形式,基本上是由用户的每一次交互行为构成的,风险控制也是基于行为特征进行分析识别的。在识别过程中,行为特征的好坏直接关系到违规刷机的识别和召回,因此数据特征的构建显得尤为重要。“磨刀不误砍柴”,现阶段我们建立了基于行为体用户、设备等的特征体系,为风控的智能识别奠定了基础。非法制作的目的是为了以最低的成本完成刷机任务。现阶段黑色生产多采用机器手段进行自动或半自动批量涂刷,不仅成本低,而且效率高。我们的基本假设是:刷机时,机器账号或设备上一定有清晰可解释的异常特征。因此,如何分析识别异常特征是风控第一阶段需要解决的命题。在识别和分工方面,我们实行终端+云端的防控模式。终端防御设计合理的设备上报和检测手段,完成对设备的初步防控。云防御根据用户特征、设备特征和行为特征进行异常行为分析。确认。以请求协议接口为例,黑客通过破解平台的签名算法直接请求后端接口,无需真机即可完成刷卡。缺乏真正的设备也导致缺乏真正的前端管理和设备报告。即使伪造设备信息,也不能有效地将设备上报信息的字段和设备环境伪造成与正常设备相同。除了通过相关特征参数的验证来识别和预防环境异常,我们还依托综合特征体系和积累的黑产刷量样本,建立了监督识别模型。在整个模型中,特征工程是保证模型召回的重要环节,而模型结果的处理环节是准确率的保证。特征工程:在特征工程中,我们按顺序分两部分进行。特征选择:经过前期不断的“人工对抗”,我们积累了丰富的特征对抗经验,从黑客手段的角度选择了全面的特征和标签,如设备内核版本、farm标签、修改字段、注册时长、批量注册标签等。特征处理:特征处理时,在对离散特征和连续特征进行标准化后,进行LabelEncoder,对表示结果尝试不同的拼接方式,将分散的特征数据转化为多维模型输入。结果处理:在设计上,我们训练了一个回归模型作为infer,即输入值是一个连续的分数,在处理结果上比分类模型更加灵活。样本分布:通过分析真实刷量样本的模型结果分布,半自动计算出“合适”的阈值,作为区分黑产与真实行为的标准。运营评估:模型上线前,风控运营会评估端到端结果的准确性。只有评估的准确率达到标准,模型才能被在线识别。3.3.2群体特征挖掘如上所述,对抗总是存在的。当黑产者发现低成本的机械手段无法绕过风控的验证时,他们会不断尝试使用真机、伪造设备参数、使用作弊工具等反制手段,升级手段来淘汰低成本的手段。在不断的对抗中,对第一阶段主体特征的分析显得比较被动,无法进行主动防控。从风控的角度来看,我们现阶段的基本假设是:无论如何造假、绕过,团伙性质不变,数据特征必然存在相似性和聚合性。因此,现阶段需要以群体为识别目标,挖掘群体特征,利用结构化数据特征体系建立第二道防线。以手段不断变化的机刷量为例,黑产的手段逐渐从协议接口转变为机改群控,演变为自动化点击工具。为积极防控,我们采用设备聚类模型进行识别和召回,有效遏制了上述机器手段。设备聚类模型以设备基本信息(如设备型号、app版本、系统内核等)为特征,对与相同笔记或博主交互的用户的设备基本信息进行特征工程和相似度计算,以及通过聚类算法圈定相似度高的设备组。识别后,一方面记录黑机,进行后续行为拦截;另一方面输出黑色设备组的设备标签,扩展设备的黑色库。该模型属于无监督模型,能够很好的适应黑市作弊手段变化频繁的特点,也可以补充在线策略,扩大召回。下面是模型流程图和聚类识别的案例:在整个模型中,我们依靠特征工程和聚类筛选来对黑产设备进行高召回率和高精度的聚类:特征工程:在第一阶段,我们建立了一个全面的、高度可重用的特性系统。这一阶段,我们分析了帮派装备的特征,选择了合适的20-30维度的装备特征作为输入,保证了模型从数据源的召回。集群筛选:在持续的风控对抗中,积累了足够的设备标签和设备黑库。在聚类模型的输出结果筛选中,将这些黑色设备作为种子,计算集群中黑色生产的集中度。从而筛选出准确且召回率高的设备簇。3.3.3题主根据图发现,如前所述,刷量的方式会逐渐演变为真人对真人。当黑产发现机器方式无法绕过风控时,会选择招募众包或组织互刷等方式,尝试用真人的行为来刷量。虽然都是真人的行为,但本质上都缺乏真实的意志,属于“假币”。不仅对真人的主要特征分析无法发现异常,而且在设备上也无法发现群体性。由于刷量行为的特殊性,我们的合理假设是,无论方式如何变化,刷量行为的最终方向都是购买标的。只要被试之间存在关联,就可以通过数据特征来识别和回忆行为。现阶段,小红书依靠特有的社区、电商行为图谱,以及刷量、刷单主动发现和挖掘一批行为主体,并通过实体关联和使用图算法进行识别欺骗用户或正在筹集帐户的人。用户召回可以有效发现“漏网之鱼”。*图1:正常用户点赞笔记关联图(红点为笔记,蓝点为用户)*图2:作弊用户点赞笔记关联图(红点为笔记,蓝点为用户)图1:7普通用户点赞的笔记中,只有一个笔记是重叠的,就是中间有红点的笔记。图2:9个作弊用户点赞的笔记属于同一批笔记。被点赞的笔记重叠度高,没有点过除这批笔记以外的其他笔记。上图展示了用户与笔记的行为关联(红色为笔记,蓝色为用户)。图1显示了普通用户喜欢普通笔记的行为关联。可以发现,行为用户的群体相关性较低,不会喜欢很多一组笔记,但由于“兴趣爱好”被系统推荐给同类型笔记,偶尔会出现重叠。图2行为用户对一批外卖笔记的认同,具有很强的社区相关性,是典型的外挂用户喜欢外卖笔记的行为关联图。以“驾车”互刷为例,即黑产接到刷卡任务后,充当组织者和中间人,向经常参与互刷(如互赞)的人发布任务,并刷指定目标.黑品不会只发布一个任务,行为用户也不会只做一个任务。两者之间有一个相对固定的“圈子”。针对此类作弊,我们通过标签传播模型,对社区用户进行了批量召回。标签传播模型基于风控图传播种子用户。种子用户来自风控已经识别和积累的用户。相关题材有买笔记、买博主等关系传播。使用真人扫描数据、设备和账户是有限的。行为型用户为了达到刷数据的目的,会用一个小账号反复接取多个任务。hashtag传播的目的是将hashtag通过正确的路径传播给社区内的其他刷卡用户,完成刷卡的识别和召回。传播路径:用户标签会通过设备、第三方账号等强路径传播,也会通过笔记、作者等购买者关联路径传播。用户标签:由于购买用户的是真人,通过标签给用户打上的标签往往无法直接拦截行为。因此,我们基于真人刷卡的基本假设,对购买主体下的标签进行了聚类分析。这样就可以识别出买量主体和刷量用户。4.跳出技术思维解决问题以上主要是基于技术解决问题,但是在实际工作中,我们也需要跳出技术的角度去帮助业务,从更宏观的角度提升安全性。基于此目的,我们在深挖技术的同时,沉淀出一套切实有效的方法论:从消除事端影响开始,解决事端人,最终消除事端动机。三点解决问题消除问题和影响,通过技术手段识别作弊对象和流量数据后,进行实际治理和处置行动,阻断平台虚假流量。解决闹事者,打击这个产业链上的人,每个环节,包括账户交易、平台数据交易、交易的人等等。这里我们采取风控和法务部??门联动的方式来解决闹事者。今年6月至8月,6家MCN和部分作者受到严惩,并提起诉讼。在电商场景下,商家刷单主要是为了吸引流量,获得更高的GMV。经认定的商户账号交由运营学员进行专业判断,并根据严重程度交由规则方进行处罚;而有不良行为的用户会被放入黑名单,风控会限制其下单行为。解决寻衅滋事的动机社区场景中的流量购买者的目的是通过作弊实现其商业价值,而我们要做的是降低这些用户或机构的商业价值。风控联合生态、运营部门根据平台规则、法律法规等对作弊流量进行惩戒,经过不断的打击,非法账号成本越来越高,刷量服务价格持续上涨.点赞、收藏单价涨幅超过300%,用户作弊意愿逐渐降低。2022年以来,小红书共清理了31亿次作弊点赞行为。看得出来,平台对于刷单这件事情的态度一直都是很坚决的。(本文作者:小红书安全技术部、鲁迅时光影王马野峰、石昊、老皮)
