当前位置: 首页 > 科技观察

支付风控模型分析

时间:2023-03-16 11:58:09 科技观察

接上一篇支付风控数据仓库建设。支付风控涉及很多方面,包括反洗钱、反欺诈、客户风险等级分级管理等,其中核心功能之一就是实时交易的风险评估,或者欺诈检测。如果交易风险太大,将执行拦截。由于反欺诈检测是在交易过程中实时进行的,要求不被误拦截,但也有用户体验的要求,即不能占用太多时间。一般要求风控操作必须控制在100ms以内。对于大交易量的业务,需要10ms甚至更低的性能要求。这就需要合理设计风控模型。一般来说,要提高风控的拦截效率,需要考虑更多的维度,但这也会导致计算性能的下降。需要在效率和性能之间取得平衡。本文着重介绍建立风控模型的方法。各企业应根据自身的实际业务情况和发展能力选择合适的模式。此处列出的模型仅供说明和参考。1.风险等级在做风控拦截的时候,首先要回答的问题是如何划分风险等级?目前主流的风险等级划分方式有三级、四级、五级三种。三级风险分为低风险、中风险和高风险。大多数交易都是低风险的,可以直接释放而不会被拦截。中风险交易在确认为本人操作后,需要加强验证放行。高风险交易直接封禁。将添加四个风险级别,中风险和高风险级别。用户完成增强验证后,此类交易需要由管理人员进行人工验证,验证无误后方可放行交易。五个风险级别,将增加一个中低风险级别。此类交易首先发布,但管理人员需要进行事后验证。如果验证有问题,手动退款,或者增加用户的风险等级。大多数支付系统使用三个级别的风险。2.基于规则的风控规则是最常用的也是比较容易上手的风控模型。从真实情况中总结一些经验,结合清单数据,制定风控规则,简单有效。常见的规则有:1.列表规则使用白名单或黑名单来设置规则。具体名单如前所述,包括用户ID、IP地址、设备ID、地域、公安法律协助调查等。例如:用户ID在风控黑名单中。用户ID号在反洗钱黑名单中。用户身份证号码在公安稽查名单中。用户使用的手机号码在羊毛号码列表中列出。转账用户所在区域为联合国反洗钱风险警示区。2、操作规则根据用户账号、IP、设备等限制支付、提现、充值的频率,一旦超过阈值,将提升风控等级。频率需要综合考虑(五)分钟、(一)小时、(一)天、(一)周等维度的数据。由于一般的计算频率是按照自然时间段进行的,如果用户的操作跨越了时间段,就会导致频率限制失效。当然,更复杂的可以用滑动窗口来完成。为不同的风险级别设置不同的阈值。例如:用户提现频率5分钟内不能超过2次,1小时内不能超过5次,一天内不能超过10次。用户每天的提现金额不能超过10000。用户支付频率5分钟内不能超过2次,1小时内不能超过10次,一天内不能超过100次。3、业务规则和一些与具体业务相关的规则,例如:同一人绑定的银行卡数量超过10张。同一张银行卡被5人以上绑定。同一个手机号绑定5个人。一周内更换手机号码4次以上。同一张私人银行卡每分钟接受超过5笔转账。4、异常行为用户行为与以往表现不一致,例如:用户支付位置与平时登录位置不一致。用户支付使用IP地址与常用IP地址不一致。短时间内,上次付款的地址和本次付款的地址相距甚远。非常远。比如2分钟前在中国付款,2分钟后在美国付款。5、风控拦截历史规则用户在某业务上的消费行为已被风控网关多次拦截。规则引擎的优点:高性能:根据规则匹配订单并输出结果。一般不涉及复杂的计算。易于理解和分析:交易违规拦截,易于输出。开发比较简单。规则引擎的问题:一刀切,容易被偷羊毛的人嗅到。比如规则规定超过5000元就拦截,那么毛号就把订单拆分成4999元去做。每天有10笔的限制,达到9笔就停止。规则冲突问题。交易命中IP白名单和配额黑名单怎么办?规则引擎看似简单,却是最实用的一类模型。它是其他风控模型的基础。在实践中,我们首先使用已知的规则来发现有问题的交易,并在人工识别交易的风险等级后,将这些交易作为其他监督学习的训练数据集。3.决策树模型风险评估本质上是一个数据分类问题。与传统金融行业风险评估的区别在于数据规模大、业务变化快、实时性要求高。一旦发现漏洞,将给公司造成巨大损失。而机器学习正是解决这些问题的利器。互联网金融风控离不开机器学习,尤其是支付风控。在各种支付风控模型中,决策树模型较为简单易用。在下面的决策树模型中,我们根据已有数据分析数据特征,构建决策树。当交易发生时,我们使用决策树来判断该交易是否为高风险交易。该模型的优点是非常容易理解,检测速度快。因此,它也是现有机构中常用的模型之一。风险控制模型的主要问题是它们会产生粗略的结果。同样的两笔交易被判定为高风险,决策树模型无法给出哪笔交易风险更大的答案。第四,评分模型比决策树模型更进了一步,现在很多公司都在使用评分(卡片)模型。银行在处理信用风险评级和反洗钱风险级别时经常使用这种方法。每个公司的模式都不一样。参考模型如下:本模型编译供参考《金融机构洗钱和恐怖融资风险评估及客户分类管理指引》,仅供参考。银行间的评分模型虽然有很好的参考价值,但由于互联网公司业务和数据的差异,评分模型参考价值不大。每个公司都需要根据自己的业务情况制定评分模型,然后为每个指标分配一个权重比例。权重打分结果是0到100分的一个区间,然后根据区间划分来指定风险等级。例如:当然,评分区间也需要根据企业的实际情况来制定。评分模型的优点是:性能比较高,交易指标计算,按区间判断风险。与规则相比,指标设置得当,覆盖率高,漏洞不易被发现。也更容易理解和分析。如果一个交易被阻塞,可以根据它的各种分数来评估它被阻塞的原因。问题:模型真的很难建立。指标选择是一个挑战。每个参数的调整都是一个长期的过程。我们知道,可以从交易记录中挖掘出数百个关联数据,甚至更多的派生数据。例如,可以从支付地址对常用地址进行聚类,推导出当前地址、常用地址和上次支付地址之间的距离,这些指标在建模时可能会用到。那么第一个问题就是,如何从这些指标中建立一个合适的模型呢?这就涉及到机器学习的问题。模型不能凭空创建。我们可以通过规则过滤和标记现有数据,以确定这些记录集的风险级别。这些数据用作训练模型的样本。可用算法包括Apriori、FP-growth等,算法实现请参考相关文档。确定相关参数后,在模型使用过程中需要不断调整相关参数。这是一个拟合或者回归算法,Logistic算法,CART算法,可以用来调参数。总之,模型的建立是一个不断学习和优化的过程。每个模型的发布还需要进行试运行、AB测试和上线。这个过程会在下一篇文章的风控框架中介绍。5.模型评价风险控制本质上是对交易记录的分类。因此,风控模型的评价除了性能之外,还需要评价“召回率”和“准确率”。如下图:以评估高风险人群的效果为例,Precision,accuracy,也叫precision,是指模型找到的真实高风险人群占所有高风险人群的比例由模型发现。Recall,召回率,也叫召回率,是指模型找到的真实高危人群占所有真实高危人群的比例。理想情况下,我们希望这两个指标都很高。事实上,它们往往是相互排斥的,高精度低召回率,低召回率和高精度。如果两者都很低,则该模型不可靠。为了风险控制,需要在保证准确率的情况下尽可能的提高召回率。那么如何找到高危人群的实际数量呢?这就需要借助一个规则模型,先过滤,再从中手动选择。从实际应用来看,目前国内团队大多采用Logistic回归+打分模型进行风控,少数采用决策树。国外PayPal是支付平台风控的标杆。国内的前海征信和蚂蚁金服会用到更先进的神经网络和机器学习,但实际效果还没有实证资料。【本文为专栏作者《凤凰牌老熊》原创稿件,转载请微信联系作者公众号《凤凰牌老熊》转载】点此阅读作者更多好文