【.com原稿】21世纪以来,金融科技浪潮汹涌澎湃。随着人工智能和互联网技术的兴起,传统金融业被颠覆。尤其是在金融风控领域,随着机器学习理论的发展和成熟以及人们对技术的信任度越来越高,越来越多的金融公司和机构采用人工智能来处理传统业务问题。从人工智能的角度来看,风险控制本身就是一个不平衡分类问题。所谓不平衡分类问题是指分类过程中正负样本分布极不均匀。因为在银行借贷的过程中,欺诈用户毕竟是一小部分人。互联网金融披露的数据造假率在10%到20%,传统银行的造假率通常更低。因此,金融科技企业需要解决的是如何在数据分布不均的情况下,通过分类的方式过滤掉恶意用户。因为它本质上是一个分类问题,所以只要是分类算法,都可以用来尝试解决问题。传统的浅层模型如逻辑回归、随机森林、xgboost,以及后续的混合模型和深度学习模型都可以用于风控。这里有恒昌利通研究人员在2018年国际会议DMKD2018上发表的一篇关于金融行业风控的论文《Detection of fraudulent users in P2P financial market》。论文作者的数据输入主要是线下门店用户填写的信息,包括用户的家庭信息、工作单位信息、贷款信息等。作者尝试使用随机森林和xgboost方法进行对比。比较主要使用GridSearch来枚举模型参数。评价指标为AUC。输入数据共有97个特征,其中33个是分类特征。分类特征以单热形式处理。实验数据分为训练集、测试集和验证集,数据比例为4:1:1。由于数据整体维度较高,在分类前尝试使用PCA的方法对数据进行降维,随机森林+PCA的GridSearch效果图如下:随机森林+PCA的AUC在测试集是0.78,而在训练集上的AUC是0.797。然后作者对比了xgboost+PCA的效果。因为数据集的分布跨度很大,所以考虑使用tanh对数据进行归一化。归一化后,xgboost+tanh的效果最好,排除奇异点得到的AUC基本在0.88左右,如下图:笔者也尝试了PCA+tanh的组合,但效果不如goodasxgboost+tanh,所以最终采用的模型是xgboost+tanh。人工智能在风控和反欺诈领域的探索已经持续多年。早在2000年代初,美国的研究人员就已经在研究相关领域的技术。但是,相关技术经过多年的检验,确实赢得了人们的信任。直到今天,在人工智能技术越来越成熟的时候,仍然有很多说法:比如只有精通金融业务的人才能真正做好风控,风控数据更重要还是模型更重要?moreimportant等。枯燥的办公室政治话题,偏见严重,往往会影响公司内部业务的正常运作。2018年,Kaggle上的捷信公司组织了一次反欺诈比赛。提供的基础数据相同,参与者基本都是技术人员。唯一的区别在于特征工程和模型的选择和处理。结果差异很大。这样的比赛可以打消很多人对人工智能技术的偏见和误解。因此,很多时候,影响一项技术或事业进步的不是技术本身,而是人与生俱来的执着。当然,这并不是说,技术不成熟,就一定很难。例如,深度学习模型在金融风控领域并没有取得比xgboost或浅层模型更好的效果。炫耀深度学习模型进行性能或人脸工程,既是对公司资源的浪费,也是对个人开发者宝贵时间的浪费。总之,金融科技行业近年来发展迅猛,但在发展过程中也有泥沙。作为金融科技从业者,必须对自己的业务有清晰的认识和定位。作者简介:王浩,区块链公司科学家,前恒昌力通大数据部负责人,犹他大学学士/硕士,在百度、新浪、网易、豆瓣等公司,擅长机器学习、大数据、推荐系统、社交网络分析等技术。在TVCG、ASONAM等国际会议和期刊发表论文10篇。本科毕业论文获得IEEESMI2008国际会议最佳论文奖。【原创稿件,合作网站转载请注明原作者及出处.com】
