当前位置: 首页 > 科技观察

张辰成:第四范式智能风控中台

时间:2023-03-20 17:07:26 科技观察

的架构设计与应用主要集中在以下五点:风控中台的设计背景策略、全周期管理模型、全周期管理业务架构以及能力的原子化应用案例01风控中心设计背景首先,大型风控系统或者说风控中心的建设,本质上是为业务服务的,所以我们需要建设一个以业务为中心的风控中心系统。以业务为中心的风控体系应具备以下六大特征:实时性:通过实时分析预测,迭代迭代风控能力,实现实时风险防控。精细化:指风控业务条线从始至终的各个环节的精细化管理。联防联控:由于客户多角度风险防控,需要相对精细化。联防联控,就是从横向扩展的角度看风险防控。通常风控中心会是一个集团业务,会涉及多个业务条线的统筹使用。因此,打通数据和信息,最大限度地实现平台级防控也十分重要。敏捷性:在欺诈或风控场景中,我们通常需要快速响应,一个小时或几分钟会产生较大的影响。我们希望通过敏捷,实现对风控的快速反应。智能化:传统风控引擎一般结合专家规则实现。将专家规则与AI算法相结合,进行整体预测是行业未来的趋势。统一扩展:分为两个层次——业务能力,必须原子化;对于IT系统或者整个中台系统来说,一定要统一。基于以上趋势,我们构建了一个完整的风控体系,可以用两句话来概括:一个叫五权双核,一个叫数融有智。五全是指覆盖。在建设全景风控中心时,需要考虑对不同子公司不同业务条线的全覆盖,如普惠金融、信用卡业务等;对于集团旗下的各个子公司,需要考虑所有客户服务的全覆盖;对于大群体,需要考虑不同场景的全覆盖;从渠道上看,还要考虑柜台、手机银行、网上银行、微信银行等渠道的全覆盖;最后,在流程上,要做到事前、事中、事后全流程覆盖。双核是指将规则引擎和AI算法引擎结合起来构建决策流程。另外,我们需要在应用架构层面实现原子化和模块化,以支持双核。最后,必须处理最关键的数据。数据部分主要是构建客户画像和风险画像。用户画像部分需要整合所有渠道构建综合画像;风险画像部分需要整合所有业务风险数据。构建完备的风控体系带来的核心价值是提升风险决策水平。一方面是建立闭环的风控策略体系,另一方面是决策引擎与AI算法的结合。接下来会做详细的分享。02策略的全周期管控首先是人机协同的概念。表达了专家规则与AI算法相结合的思想。在传统的决策引擎中,规则通常列在最前面。因为规则有以下优点:简单的规则可以直观地过滤掉头部风险,比如过滤掉高风险区域的主体;规则可解释性强,比如格子衬衫和背包就是程序员;规则更容易做出差异化的统计信息,比如使用简单的规则可以覆盖50%到60%的问题。但是仅仅规则覆盖是不够的。这时候就需要AI模型了。因为从特征利用的角度来看,规则的利用特征很少。因此,该模型可以通过大量特征深入挖掘长尾风险用户。另外,模型可以基于大数据进行挖掘,数据源相对较多。在整个风控体系中,人工和机器学习适用于不同的场景。例如,以下适用于专家手册规则:业务线冷启动时,需要依赖专家经验;决策审批等制度相关,更适合人工规则。除了规则之外,下面这些更适合机器学习。例如:需要给规则设置一个推荐阈值,比如金额大于风险,可以使用机器学习;当需要对规则组合提出建议时,比如如何做A加B或B加C的规则组合,也可以通过机器学习来完成;其他的,例如机器学习可以在规则之上做的工作,以及机器学习本身具有图算法的能力,都可以使用。在闭环方面,策略的闭环和机器学习的闭环非常相似。策略流程是策略制定、测试、上线、监控优化,最后测试上线优化后的策略的闭环。机器学习首先产生一种行为,然后对行为进行反馈。基于这些行为数据和反馈数据,学习模型。模型学习完成后,在线应用。可以看出,这两个圆非常相似。接下来,让我们看一下策略管理系统。(1)在策略配置方面,将制作规则记分卡、决策表、决策流,支持鼠标点击可视化和代码开发联合配置;(2)在政策版本管理方面,会区分政策的版本;(3)在策略测试阶段,会发布一系列ABTests;(4)测试发布后,将监控策略的整体效果。首先,策略的基石是指标的计算。可以根据指标制定一些规则,并在此基础上制定独特的风控计分卡和决策表。机器学习模型也可以从指标或特征计算中获益。定义策略组件后,可以启动决策流程。从指标的定义上,系统内置了一些指标处理功能,比如平均值、大小,或者计算年龄、性别或者身份证首位数字,或者一段时间内的消费总额等等。另外,我们还定义了一套DSL来实现。其中一部分是内置功能,另一部分支持当内置功能无法满足时,通过外部加载插件的方式在线热加载。另一种更直观的方法是通过定义的DSL来定义不是内置的函数。如上例,我们首先定义了步骤列表,然后使用一个函数来进行列表处理。图中展示了我们是如何遍历表达式语法树的(目前我们的单个表达式还是串行计算的,后面我们可以通过并行进一步优化提高执行速度。)上面的索引定义是通过DSL实现的,那么在定义之后指标,我们设置指标阈值或指标组合。这里可以使用视觉操作。如图所示,我们定义了更复杂的与(AND)和或(OR)关系,将指标组合成规则,进一步将规则组合成规则包使用。计分卡的设置也有友好的可视化操作。DSL定义和策略制定完成后,可以将策略组合组合起来形成决策流。在整个决策流程中区分不同类型的节点。最开始是输入节点,然后是转换节点,简单转换变量,然后是规则节点,还有一个也可以应用机器学习模型的节点,后面是决策表,分裂等。之后定义,终止节点输出最终结果。策略定义后,用于保证策略满足预期的策略测试。包括接口单测、批量集成测试(用批量历史数据回测)、championchallenger(用历史数据挑战线上规则,看能不能比)、线上沙盒测试,最后会得到一份测试报告上线策略和上线策略的整体评价,用于人工判断是否适合上线。上线阶段,需要一个灰度发布流程。该流程会随机调整流量,根据条件规则进行灰度发布,并在整个策略测试完成后提供便捷的策略打包服务,一键导入生产环境。最后是流程的ABTest。这里支持多组并行拆分ABTest,可以进行对比分析。最后是对策略效果的监控。包括业务监控(如通过风险图放贷金额等),统计报表(如统计命中率、拦截率等),检查策略分段指标是否有异常和规则,最后标记异常。人工确认是否为诈骗案件。标记结果也将用于后期机器学习算法的迭代优化。以上就是策略的全生命周期管理。03模型的全周期管理再来看建模的全周期管理。从建模的角度来看,分为数据引入,拆分训练集验证集测试集,然后是特征工程,算法选择,超参数搜索,最后的评估报告。但是,有时我们很难将产品策略部署到客户侧,并根据客户数据进行定制化建模,所以这里使用AutoML。在AutoML中,涉及自动数据编译(将多个客户数据表处理成大而宽的表)、自动特征工程、自动算法选择、自动参数调整,以及最终给出评估报告的一整套建模过程。另外,在建模完成后,我们提供了全自学习和增量在线学习两种方式,针对效??果会随时间衰减,需要更新的情况进行优化纠错。先从业务角度定义反欺诈等业务问题,然后数据科学家或者IT做数据采集,然后算法科学家做特征工程,再进行模型训练和评估。整个过程需要反复选择数据、特征和模型。线上阶段还涉及算法和工程问题,耗时耗力。而AutoML可以帮助覆盖数据收集、特征工程、模型训练和模型评估过程中的大部分工作。特征工程如何实现自动挖掘?基于多表时空的特征挖掘算法分为三步:第一步自动多表拼接。一对一表可以直接拼接;对于一对多表,子表可以查找最新拼接,也可以根据配置进行查找拼接。第二步是自动特征工程。特征生成包括最原始的特征,进行一阶计算变换,或者判断时间序列特征是否为周末等,统计离散特征统计窗口中特征出现的次数。例如,交易流量计可以根据用户的交易时间进行分组排序,然后聚合生成单月交易笔数或交易金额等衍生特征;它还可以结合性别和教育等离散特征。第三步是特征选择。将时序聚合特征作为候选特征,然后根据验证计算出的AUC从候选特征中选择TopK特征。04业务架构与能力原子化从业务架构来看,也可以分为数据层、平台层和应用层三部分。数据层可将行内交易的还款数据与央行征信等行外数据进行整合。存储相关需要不同的数据库,比如内存时序数据库,关系数据库,图数据库,分布式存储数据如HDFS;平台层包括管理指标计算和处理的指标中心,管理决策流程的决策服务中心,以及下面的政策中心和模型中心。其中,策略中心用于完成策略组装和版本管理。模型中心主要负责AutoML的特征选择、调参等模型相关工作。另外还有一个图计算中心,通过关联图上的图计算来辅助线上业务。应用层主要通过上述组件支持交易反欺诈等不同业务模块。在业务能力原子化方面,也可以从技术组件、基础设施层、服务层和业务模块层的角度分为三层。最底层是基础设施层。比较重要的是数据存储和容器调度。在容器调度上,由于原生K8S的调度能力不足以支撑机器学习业务和大数据运行,我们基于K8S优化了调度。中间是基础服务层。其中就有数据计算引擎,比如上面提到的DSL,还有内置函数的索引定义。对于时间跨度比较长的实时流特征,会需要离线批处理任务来计算。然后是离线和在线服务管理。其中,离线包括如定时运行的批处理任务、任务调度、任务监控和执行等。在线服务包括灰度发布、ABTest辅助流量网关、K8S多在线服务弹性伸缩、可视化服务编排、AutoML模型管理、保障数据质量的数据管理模块等,最上层是业务模块层。会有一个数据中心来管理所有的第三方数据,业务数据,以及需要人上传删除的特殊数据,比如黑白名单等。策略组件和策略中心通过这些组件串联起来一个可视化界面。场景中心是创建交易反欺诈、业务监控报表等业务场景的入口。另一个重要的是策略实验室,它提供了结合指标阈值和规则的能力。通过三层能力划分实现能力原子化,既有利于我们的产品本身,也有利于客户现有系统的集成。05应用案例最后分享两个例子。其中之一是硬实时交易反欺诈。这个案例主要体现的是性能优势,笔的平均处理时间只有6毫秒,而TP99可以控制在20毫秒以内。另一方面,从风控能力来看,特征维度远大于传统风控,采用模型和规则双引擎。我们之所以能够在双引擎上做到高性能,主要是得益于我们的内存时序数据库,这也是一个重要的内部模块。又如某全国性股份制银行全渠道反欺诈系统项目,涉及500+条规则,2000+实时计算指标。在业务成果上,该系统每月帮助银行发现并拦截近万笔高风险交易。左边是接入股份制银行后的结构。