一、海外信贷现状介绍自国内金融P2P风起云涌以来,国内众多小贷机构纷纷涌入东南亚、非洲等未开发市场,如印尼、印度、菲律宾、泰国、越南、尼日利亚等国家。分析这些东南亚/非洲国家的市场特征,金融普惠性低(2017年越南30.8%的人拥有银行账户)、金融需求高(2017年49.0%的人口借贷)和互联网普及率(2018年)66%in2019)和移动连接为东南亚金融科技贷款的发展提供了最有利的条件,开启了野蛮增长的模式。结合这些地区的贷款市场情况,征信体系建设和经济状况通常比较差,大部分用户的资质比较差(不符合银行的贷款资质)。受多方面因素影响,机构对放贷用户信用/欺诈风险把握不佳,小贷机构坏账率普遍偏高(如部分机构新增借款人坏账率可达20-30%,而银行坏账通常在10%左右)。东南亚开发的小额贷款产品一般为714高射炮(贷款期限为7-14天,在放贷-斩息时收取高额逾期费用或提前扣息,部分实际年化利率已达到300%)。高利率必然带来高风险,这类业务也容易受到金融监管政策的阻挠。2、小额贷款风控系统引入如此高的坏账情况。如果小额贷款机构对借款人的信用情况把握不够,即使高利率也未必能覆盖如此高的信用风险。可见,风控能力是小贷业务止损的核心,风控体系通常由反欺诈(证件信息核验、人脸识别核验、黑名单)+应用评分模型组成。风控好坏的关键在于数据的获取和积累。一个明显的区别是,从机构借新贷的用户坏账率在20-30%(盗贷比例应该很高),而对于机构内部再贷的老用户(借贷的用户)之前借过,重复借过)坏账率只有4%。也就是说,对于机构有借贷历史的用户,其坏账率明显更低!信用风控能力的差异,其实就是数据垄断优势的体现!对于小额贷款机构来说,在营销和拓展新用户之后,如何利用风控模型尽可能准确地评估新用户,给予较低的额度,在信用记录较好的时候再增加额度,从而达到维护和扩大这部分复杂的贷款用户是企业盈利的关键。境外小额贷款机构申请评分模型的主要数据来源为:机构历史贷款记录:如同一手机号码申请贷款的次数、逾期次数等。在征信系统覆盖不全的情况下,机构(或联合机构)内部的贷款历史往往最有说服力和有效性。客户基本信息:如身份信息、联系方式、职业、收入、贷款用途等信息。由于在线申请数据往往没有经过人工审核,信息的可靠性值得怀疑,通常可以通过多方数据来验证这些是否一致可靠。征信机构征信:全球三大商业和个人征信巨头分别为Experian、Equifax和TransUnion,可提供贷款申请数量、贷款金额、信用账号等信息。但缺点是对于征信体系不完善的地区,覆盖率和信息记录会比较差(本项目验证的Experian实际覆盖率在80%左右)。手机短信:短信可以提供很多有价值的信息,如话费欠费、银行卡收支、联系人数量、日常聊天短信、代理催收短信、征信广告数量等。通过简单的关键字匹配、词袋模型等方法提取关键特征,通过短信分类、信息抽取(实体抽取)统计收款短信数量、欠费、收支等数据等方法(注:获取短信数据肯定是不合规的,机构只想要更多的数据保障,而用户急着花钱的时候不在乎隐私数据,目前部分APP已经被禁止手机通讯录:可以统计关联联系人的逾期次数,以及其他社交信息;APP数据:可以统计信用类APP、社交类APP的安装数量、APP使用率;登录IP、GPS、设备号信息:可用于关联特性,如同一IP下的逾期次数等,建立IP和设备黑名单;银行对账单数据:如工资等信息,可以更有效地反映用户的还款能力。3.应用评分模型实践3.1征信特征处理本项目基于某东南亚国家近期500笔小额贷款交易(数据来源于互联网,侵删),得到对应的Experian征信报告数据,并用Python处理了滑动窗口的信用参考特征:比如过去30天的贷款数量、平均贷款金额、最近贷款日期间隔、历史逾期数量等特征,应用评分模型为通过LightGBM构建。Experian信用报告的原始信息包含个人基本信息、近期贷款信息、信用卡、贷款等历史表现信息。以下代码滑动时间窗口提取相应的特征。#完整代码请关注公众号“算法进阶”或访问https://github.com/aialgorithm/Blogdefadd_fea_grids(fea_dict,mult_datas,apply_dt='20200101',dt_key='Open_Date',calc_key="data['Amount_Past_Due']",groupfun=['count','sum','median','mean','max','min','std'],dt_grids=[7,30,60,360,9999]):"""征信使用滑动时间窗——将近N天,处理字段A的计数、求平均、求和等特征。fea_dict:最终特征存储的字典mult_datas:多个记录值calc_key:datafeatures字段的相对位置"""new_fea={}#在dt_grids中为_dt记录每个时间窗口的原始特征:new_fea.setdefault(_dt,[])#按时间窗口初始化fea_suffix=calc_key.split("'")[-2]+str(len(calc_key))#prefixnoteifmult_datas:mult_datas=con_list(mult_datas)fordatainmult_datas:appiflen(data[dt_key])>=4anddata[dt_key]
