当前位置: 首页 > 科技观察

文本理解算法在抖音风控中的应用

时间:2023-03-18 23:59:07 科技观察

www.ydisp.cn/oss/202207/13/68d3de1342e3b578f8c046e5c8a1cbca54e8c9.png"alt="image"title="image"style="width:934px;能见度:可见;height:538px;"data-type="block">黑库:从用户离线获取数据建立索引,为在线搜索结果提供回溯。提供语义相似度检索和关键词检索。分钟级延迟黑库提供语义相似度检索、字面相似度检索、实体级相似度检索、布尔规则检索、多模态相似度检索秒级延时防止库内样品意外损坏,提供前端防止意外损坏和在线灰度自动标注能力监控黑产变化的任务更快的响应和更有效的利用人工审核数据,建立一套结合黑库和回扫的自动化任务流程,这个过程让审??核数据起到线上拦截和库存惩罚的作用时间短虽然黑品使用的文字变化很快,但只要黑品的目标明确,他们使用的文本将在类别语义级别保持不变。RiskText风控文本标签系统是针对抖音风控场景中一些主要语义类别设计的一套文本标签集。为什么我们需要标签系统?如果我们每次都使用少量的特定场景数据来针对一个非常特定的业务场景来训练模型,比如评论颜色引导、评论赌博引导等模型,那么就会出现以下问题:标签不是合理抽象,时效性明显。它只适用于解决临时的、特定的业务问题。效果无法保证数据源杂乱,质量无法保证,导致标签质量得不到保证模型与具体业务案例耦合度过高,业务或场景难以复用模型标签太乱,不利于维护和产能输出。一个具有可维护性、可复用性、鲁棒性强等特点,能够很好解决业务风控问题的文本分类标注系统是我们所需要的。技术方案模型架构:多通道输入对同音,形状近变更鲁棒的训练方式:样本增广+一致训练样本降噪:解决数据中的错误标签,自动迭代,主动学习,改进审计,监控,看板、质量保证、风险信息提取、非法作弊文本往往包含一些关键信息,作弊技术会改变但关键信息不易改变(或改变成本高)。如果能够正确识别文本中的关键信息,则可以有效提高防御系统的鲁棒性。目前已经构建了三种类型的风险信息抽取能力:风险联动模式、风险变体、风险文本片段。其他场景,比如电商业务中的风险地址提取,也可以参考构建类似的能力。风险联系方式抖音是流量聚集地。黑业为了盈利,经常将流量引流到航站楼外,进而进行违法活动。因此,识别黑产业留下的联系方式是一项重要的能力。能力全景图从使用阶段划分,包括判别->提取->风险评分->风险标签。判别(是否有联系方式):包括高准和高照两个模型集,根据不同的使用场景和治理阶段选择对应的模型集。抽取(哪里是联系方式):支持对抽取的变体联系方式进行归一化处理,有例行挖掘任务不断补充新的变体号码和字母。风险评分(有无风险):根据联系人信息的风险特征,训练风险评分模型。风险标签(什么是风险):也是区分高准和高照的。高准是人工标注的,高照是在用户-接触二分图中通过标签扩散得到的。风险变体黑产为了对抗文本识别能力,会对文本的关键部分进行变体。由于大多数文本模型不会经常更新,因此模型的效果会随着时间的推移而逐渐衰减。为了解决这个问题,将文本变体能力与下游文本能力解耦,当变体识别能力提高时,所有下游任务都可以受益。PS:如果黑产的文字变化太快,会不会跟不上?这样的能力建设有什么意义?我们的能力在前期会覆盖简单的变体,但后期创建新变体的成本会更高,考验的是能力是否不断迭代更新。该技术方案的变种挖掘->变种判别->变种映射表的过程可以自动运行,可以不断挖掘新的变种。除了关键信息变体,黑产风险文本片段也会改变非关键文本。为了表达黑酱的意图,关键信息不会有太大的分歧。来来回回可能只有几个关键词,但他们会改变语言来对抗识别模型。我们只需要从黑酱发来的大量文字中找出表情即可。意图的关键信息可以提高系统对话技术转换的鲁棒性。技术方案整体的技术方案可以概括为两步:获取文本的重要黑色特征(对应图中的黑色词细化表)。挖掘特征之间的关系,挖掘结果作为规则导出,挖掘算法使用FP-Growth。