张辰成：第四范式智能风控中台

时间：2023-03-20 17:07:26 科技观察

的架构设计与应用主要集中在以下五点：风控中台的设计背景策略、全周期管理模型、全周期管理业务架构以及能力的原子化应用案例01风控中心设计背景首先，大型风控系统或者说风控中心的建设，本质上是为业务服务的，所以我们需要建设一个以业务为中心的风控中心系统。以业务为中心的风控体系应具备以下六大特征：实时性：通过实时分析预测，迭代迭代风控能力，实现实时风险防控。精细化：指风控业务条线从始至终的各个环节的精细化管理。联防联控：由于客户多角度风险防控，需要相对精细化。联防联控，就是从横向扩展的角度看风险防控。通常风控中心会是一个集团业务，会涉及多个业务条线的统筹使用。因此，打通数据和信息，最大限度地实现平台级防控也十分重要。敏捷性：在欺诈或风控场景中，我们通常需要快速响应，一个小时或几分钟会产生较大的影响。我们希望通过敏捷，实现对风控的快速反应。智能化：传统风控引擎一般结合专家规则实现。将专家规则与AI算法相结合，进行整体预测是行业未来的趋势。统一扩展：分为两个层次——业务能力，必须原子化；对于IT系统或者整个中台系统来说，一定要统一。基于以上趋势，我们构建了一个完整的风控体系，可以用两句话来概括：一个叫五权双核，一个叫数融有智。五全是指覆盖。在建设全景风控中心时，需要考虑对不同子公司不同业务条线的全覆盖，如普惠金融、信用卡业务等；对于集团旗下的各个子公司，需要考虑所有客户服务的全覆盖；对于大群体，需要考虑不同场景的全覆盖；从渠道上看，还要考虑柜台、手机银行、网上银行、微信银行等渠道的全覆盖；最后，在流程上，要做到事前、事中、事后全流程覆盖。双核是指将规则引擎和AI算法引擎结合起来构建决策流程。另外，我们需要在应用架构层面实现原子化和模块化，以支持双核。最后，必须处理最关键的数据。数据部分主要是构建客户画像和风险画像。用户画像部分需要整合所有渠道构建综合画像；风险画像部分需要整合所有业务风险数据。构建完备的风控体系带来的核心价值是提升风险决策水平。一方面是建立闭环的风控策略体系，另一方面是决策引擎与AI算法的结合。接下来会做详细的分享。02策略的全周期管控首先是人机协同的概念。表达了专家规则与AI算法相结合的思想。在传统的决策引擎中，规则通常列在最前面。因为规则有以下优点：简单的规则可以直观地过滤掉头部风险，比如过滤掉高风险区域的主体；规则可解释性强，比如格子衬衫和背包就是程序员；规则更容易做出差异化的统计信息，比如使用简单的规则可以覆盖50%到60%的问题。但是仅仅规则覆盖是不够的。这时候就需要AI模型了。因为从特征利用的角度来看，规则的利用特征很少。因此，该模型可以通过大量特征深入挖掘长尾风险用户。另外，模型可以基于大数据进行挖掘，数据源相对较多。在整个风控体系中，人工和机器学习适用于不同的场景。例如，以下适用于专家手册规则：业务线冷启动时，需要依赖专家经验；决策审批等制度相关，更适合人工规则。除了规则之外，下面这些更适合机器学习。例如：需要给规则设置一个推荐阈值，比如金额大于风险，可以使用机器学习；当需要对规则组合提出建议时，比如如何做A加B或B加C的规则组合，也可以通过机器学习来完成；其他的，例如机器学习可以在规则之上做的工作，以及机器学习本身具有图算法的能力，都可以使用。在闭环方面，策略的闭环和机器学习的闭环非常相似。策略流程是策略制定、测试、上线、监控优化，最后测试上线优化后的策略的闭环。机器学习首先产生一种行为，然后对行为进行反馈。基于这些行为数据和反馈数据，学习模型。模型学习完成后，在线应用。可以看出，这两个圆非常相似。接下来，让我们看一下策略管理系统。（1）在策略配置方面，将制作规则记分卡、决策表、决策流，支持鼠标点击可视化和代码开发联合配置；(2)在政策版本管理方面，会区分政策的版本；(3)在策略测试阶段，会发布一系列ABTests；(4)测试发布后，将监控策略的整体效果。首先，策略的基石是指标的计算。可以根据指标制定一些规则，并在此基础上制定独特的风控计分卡和决策表。机器学习模型也可以从指标或特征计算中获益。定义策略组件后，可以启动决策流程。从指标的定义上，系统内置了一些指标处理功能，比如平均值、大小，或者计算年龄、性别或者身份证首位数字，或者一段时间内的消费总额等等。另外，我们还定义了一套DSL来实现。其中一部分是内置功能，另一部分支持当内置功能无法满足时，通过外部加载插件的方式在线热加载。另一种更直观的方法是通过定义的DSL来定义不是内置的函数。如上例，我们首先定义了步骤列表，然后使用一个函数来进行列表处理。图中展示了我们是如何遍历表达式语法树的（目前我们的单个表达式还是串行计算的，后面我们可以通过并行进一步优化提高执行速度。）上面的索引定义是通过DSL实现的，那么在定义之后指标，我们设置指标阈值或指标组合。这里可以使用视觉操作。如图所示，我们定义了更复杂的与（AND）和或（OR）关系，将指标组合成规则，进一步将规则组合成规则包使用。计分卡的设置也有友好的可视化操作。DSL定义和策略制定完成后，可以将策略组合组合起来形成决策流。在整个决策流程中区分不同类型的节点。最开始是输入节点，然后是转换节点，简单转换变量，然后是规则节点，还有一个也可以应用机器学习模型的节点，后面是决策表，分裂等。之后定义，终止节点输出最终结果。策略定义后，用于保证策略满足预期的策略测试。包括接口单测、批量集成测试（用批量历史数据回测）、championchallenger（用历史数据挑战线上规则，看能不能比）、线上沙盒测试，最后会得到一份测试报告上线策略和上线策略的整体评价，用于人工判断是否适合上线。上线阶段，需要一个灰度发布流程。该流程会随机调整流量，根据条件规则进行灰度发布，并在整个策略测试完成后提供便捷的策略打包服务，一键导入生产环境。最后是流程的ABTest。这里支持多组并行拆分ABTest，可以进行对比分析。最后是对策略效果的监控。包括业务监控（如通过风险图放贷金额等），统计报表（如统计命中率、拦截率等），检查策略分段指标是否有异常和规则，最后标记异常。人工确认是否为诈骗案件。标记结果也将用于后期机器学习算法的迭代优化。以上就是策略的全生命周期管理。03模型的全周期管理再来看建模的全周期管理。从建模的角度来看，分为数据引入，拆分训练集验证集测试集，然后是特征工程，算法选择，超参数搜索，最后的评估报告。但是，有时我们很难将产品策略部署到客户侧，并根据客户数据进行定制化建模，所以这里使用AutoML。在AutoML中，涉及自动数据编译（将多个客户数据表处理成大而宽的表）、自动特征工程、自动算法选择、自动参数调整，以及最终给出评估报告的一整套建模过程。另外，在建模完成后，我们提供了全自学习和增量在线学习两种方式，针对效??果会随时间衰减，需要更新的情况进行优化纠错。先从业务角度定义反欺诈等业务问题，然后数据科学家或者IT做数据采集，然后算法科学家做特征工程，再进行模型训练和评估。整个过程需要反复选择数据、特征和模型。线上阶段还涉及算法和工程问题，耗时耗力。而AutoML可以帮助覆盖数据收集、特征工程、模型训练和模型评估过程中的大部分工作。特征工程如何实现自动挖掘？基于多表时空的特征挖掘算法分为三步：第一步自动多表拼接。一对一表可以直接拼接；对于一对多表，子表可以查找最新拼接，也可以根据配置进行查找拼接。第二步是自动特征工程。特征生成包括最原始的特征，进行一阶计算变换，或者判断时间序列特征是否为周末等，统计离散特征统计窗口中特征出现的次数。例如，交易流量计可以根据用户的交易时间进行分组排序，然后聚合生成单月交易笔数或交易金额等衍生特征；它还可以结合性别和教育等离散特征。第三步是特征选择。将时序聚合特征作为候选特征，然后根据验证计算出的AUC从候选特征中选择TopK特征。04业务架构与能力原子化从业务架构来看，也可以分为数据层、平台层和应用层三部分。数据层可将行内交易的还款数据与央行征信等行外数据进行整合。存储相关需要不同的数据库，比如内存时序数据库，关系数据库，图数据库，分布式存储数据如HDFS；平台层包括管理指标计算和处理的指标中心，管理决策流程的决策服务中心，以及下面的政策中心和模型中心。其中，策略中心用于完成策略组装和版本管理。模型中心主要负责AutoML的特征选择、调参等模型相关工作。另外还有一个图计算中心，通过关联图上的图计算来辅助线上业务。应用层主要通过上述组件支持交易反欺诈等不同业务模块。在业务能力原子化方面，也可以从技术组件、基础设施层、服务层和业务模块层的角度分为三层。最底层是基础设施层。比较重要的是数据存储和容器调度。在容器调度上，由于原生K8S的调度能力不足以支撑机器学习业务和大数据运行，我们基于K8S优化了调度。中间是基础服务层。其中就有数据计算引擎，比如上面提到的DSL，还有内置函数的索引定义。对于时间跨度比较长的实时流特征，会需要离线批处理任务来计算。然后是离线和在线服务管理。其中，离线包括如定时运行的批处理任务、任务调度、任务监控和执行等。在线服务包括灰度发布、ABTest辅助流量网关、K8S多在线服务弹性伸缩、可视化服务编排、AutoML模型管理、保障数据质量的数据管理模块等，最上层是业务模块层。会有一个数据中心来管理所有的第三方数据，业务数据，以及需要人上传删除的特殊数据，比如黑白名单等。策略组件和策略中心通过这些组件串联起来一个可视化界面。场景中心是创建交易反欺诈、业务监控报表等业务场景的入口。另一个重要的是策略实验室，它提供了结合指标阈值和规则的能力。通过三层能力划分实现能力原子化，既有利于我们的产品本身，也有利于客户现有系统的集成。05应用案例最后分享两个例子。其中之一是硬实时交易反欺诈。这个案例主要体现的是性能优势，笔的平均处理时间只有6毫秒，而TP99可以控制在20毫秒以内。另一方面，从风控能力来看，特征维度远大于传统风控，采用模型和规则双引擎。我们之所以能够在双引擎上做到高性能，主要是得益于我们的内存时序数据库，这也是一个重要的内部模块。又如某全国性股份制银行全渠道反欺诈系统项目，涉及500+条规则，2000+实时计算指标。在业务成果上，该系统每月帮助银行发现并拦截近万笔高风险交易。左边是接入股份制银行后的结构。

上一篇：聚焦整合台大通用发布企业级大数据平台及数据库一体机

下一篇：6个值得了解的优秀JavaScript图表库

张辰成：第四范式智能风控中台相关文章