近日,上海高级金融学院、上海交通大学联合全球知名大学和研究机构组织了一场国际金融科技会议。
创始人和氪科技CEO朱明杰博士代表这家年轻的AI创业公司向与会者讲解了氪信托深度渗透金融领域领先机构的“秘密武器”。
这不仅是氪信首次公开更全面的技术信息汇总,也是一次大规模的基于行业实践对AI金融痛点和难点的系统梳理,对于行业来说具有前瞻性意义。
如何抢占AI时代金融科技的制高点。
谢谢李教授,谢谢,大家,很高兴再次来到高金。
我们公司成立第一年,位于附近的番禺路。
技术人员都是交大的,所以我们经常来这里吃午饭,饭后逛逛。
今天聊这个话题是很有道理的。
我对两个方面有信心。
首先,我在AI领域工作了十多年。
我以前在互联网行业用人工智能和算法来解决问题,我认为这是理所当然的。
当时金融界的朋友谈到了大数据给他们带来的挑战。
我觉得算法可能有用,所以我开始在这个领域进行实践。
我从2015年底开始做这个,一不小心就做了快4年了。
另一个信心来源是氪金信托成立后就与民生银行合作,解决小微企业信贷困难问题。
在座大家应该都清楚,小微企业贷款的风控压力很大。
当时,民生银行启动了以大数据为特色的小微3.0项目。
我们合作尝试用大数据来解决风险上升的问题,效果非常好。
去年6月底,民生银行小微企业贷款余额达到1亿多元。
我们从2016年开始和招商银行合作,当时招商银行希望通过智能化的方式拓展线上零售业务。
我们开始陪伴招商银行进行智能化升级,从风控、反欺诈延伸到营销、催收等,合作伙伴也从信用卡扩展到了零售信贷中心;去年以来,我们与四大银行合作,解决数亿账户业务量带来的智能化挑战和企业业务问题。
因此,从我们成立到现在,我们都以最先进的发展理念和最高的要求通过了银行的考验。
同时,我们还在国际顶级学术会议上发表了一些论文。
作为一家初创公司,我们还有时间发表论文,感觉有点不专业。
其实就是因为我们有很多实践和数据处理的经验,所以顺便发表了一些论文。
昨天我和几位教授和同事共进晚餐。
有人说我们公司的论文在一些公司成了面试题,这让我压力很大。
AI应对另类大数据业务挑战 如今,当我们谈论金融大数据时,我们主要谈论金融强数据之外的“另类数据”。
我们这些从事计算机工作的人都能感受到,风控专家最痛苦的地方就是希望按照过去制定规则的方式将这些数据编码到之前的评分系统中。
例如,记分卡是根据工资和纳税情况制作的。
对于金融概念之外的数据,比如一个人一天给多少人打电话、他的互联网行为、社交网络状态等,风控专家最初想用传统经验把它们变成特征变量,结果远远超出了预期。
记分卡可以处理。
我们恰好非常擅长这样做,因为我们过去是在互联网上处理这些数据的。
我们训练机器识别一堆照片中的章子怡。
我们没有告诉它谁又漂亮又白,那就是章子怡。
事实并非如此。
但我们仍然可以做出一个识别率非常高的模型。
不存在神奇的单一技术,而是一系列技术。
今天,我们利用AI技术来处理金融领域的另类数据。
它并不围绕非常花哨的技术,也不必首先适应人们的理解。
我们这样做是为了提高实际结果。
所以我们发表的学术论文有很好的实践支撑,我有信心站在这里和大家谈论论文。
“另类数据”的三种处理方式首先以综述文章的形式呈现给大家,总结了氪信另类数据的一系列工作,构建强大的风控体系。
一般来说,难以制作成记分卡的另类数据主要包括动态、文本和网络三种类型。
这些让风控专家束手无策的数据,可以通过构建有效的模型,由机器来处理。
总体思路是将专家的经验转化为金融场景下机器可以理解的语言和数据,不断训练机器,提高学习能力,最终让机器处理人类无法解决的问题。
动态时间序列数据是基于时间的一系列数据。
如果使用记分卡将此类数据分类为特征变量,对于风控人员来说将是极其痛苦的。
但机器不同。
它们可以存储和处理大量时间序列数据。
一种关注整体而不是单个节点的方法。
这是我们与京东金融合作的成果。
相关论文于2016年发表在KDD上,主要涉及APP上发生的序列化行为。
例如,个人注册一个页面,输入一些信息,然后快速或缓慢地点击。
向左或向右滑动……这样的数据,然后找出一些涉嫌欺诈的人的特征,并提出一套行为事件流时序模型框架。
这个框架的提出是基于一个很自然的想法:近年来,大家都在使用深度学习,特别是LSTM(基于深度循环网络的特征提取框架),特别适合处理时间序列数据。
所以我们将这种顺序行为编码到我们的 LSTM 模型中。
同时,我们是一家非常注重实际使用效果的公司,所以实现这一步还不够。
我们还有一个框架,使用 CNN 模型从序列行为中提取派生特征。
在此过程中我们将获得更多信息。
今天我很难解释为什么两者结合起来会产生更好的效果。
如果你对具体结果感兴趣,可以看看我们关于 KDD 的论文。
这就是文本数据的处理方式。
在金融行业,过去人们可能对文本数据束手无策,因为很难将一系列对话文本转换为数字变量,向计算机解释,最后输出结果。
当今世界上最足智多谋、最先进的人工智能公司,如谷歌和微软,都未能完全解决人类自然对话的问题。
但我们能做什么呢?我们可以在有限的场景下给出很好的结果。
因为你每多加一层限制,你的计算复杂度就会降低很多,并且在有限的计算资源和技术条件下,可以获得足够好的效果。
举个最极端的例子,如果能简化为一个问题,其实是可以通过应用规则来解决的。
我们还有多篇关于该领域学术成果的论文。
第一篇论文主要讲了我们搭建的一个QA问答系统的特点。
从一段文本到一个数值向量,实际上有一个标准的方法。
但是我们发现在有限的场景下,比如采用问答方式的客服场景,使用X-Encoder(基于无监督深度学习的特征提取框架)效率不够高,所以我们做了一套基于 X-Encoder 的 QA 集合风险模型交互式特征提取框架,特别适合金融领域的问答。
第二篇论文是关于提取客户标签,通过对话将您的上下文提取到标准事件中。
这件事的关键在于,当今金融机构的客户服务人员接受过像机器一样工作的培训。
新人入职后,用标准化的培训模板来教他,告诉他,比如客户说了这句话,你以后会说什么,你会怎么给客户贴标签等等。
所以我们的工作就是建立一个知识库并建立标准的对话过程预测系统,让这个新人能够更快上手。
我们的长期计划是让机器训练机器,而不是机器训练人。
今天,我们已经在和一些合作伙伴一起探索这方面的工作,未来应该会有更多有趣的工作。
第三类网络数据是因为个人数据非常有限,尤其是在金融领域。
我们都在讲大数据风控。
事实上,需要大量的训练样本,但金融场景下的训练样本非常有价值。
例如,如果你想获取一个人是坏人的样本数据,那么至少要有几万笔坏账。
这个成本是非常高的。
这和我们以前做的互联网预测分析是不一样的。
用户无论是喜欢一部电影、喜欢一个广告、还是喜欢一个手机壳,成本都没有那么高。
我们的方法是找到相似的人,从他们的申请材料和社会关系中提取知识,并进行聚类。
当你发现一个坏人的时候,和他类似的一群人是坏人的概率就非常高了。
换句话说,当你发现群体之间有效的相似关系时,将有助于识别个体风险。
当然,仅靠个人大数据是不够的。
我们还需要使用更多的大数据,最后使用集成模型将个人风险特征与本地和全球网络上建立的风险特征结合起来,以提高风险预测效果。
模型的可解释性:人工智能的下一个突破点。
我刚才讲的是几种不同类型的替代数据处理方法。
在这个过程中,我们总是有一个挑战,就是你做的模型是一个黑匣子,无法解释。
我无法告诉金融机构谁使用了这种方法并取得了良好的效果。
这是金融机构无法接受的。
你必须告诉他们原因。
这其实是整个AI领域最麻烦的事情。
在业务场景特别明显的地方,比如医疗领域,难度就更加明显。
例如,人工智能诊断说一条腿需要被砍掉。
为什么?你不能说是模型预测的,或者说最后你说模型错了,那医院肯定会关门。
因此,模型的可解释性是深度学习突破后人工智能面临的新挑战。
目前我还没有看到针对通用模型特别好的解决方案。
但在具体的金融场景下,我们可以进行一定程度的解释。
有两种方法:一是局部逼近,用低维模型去拟合高维模型。
它指的是博弈论中的事物,最终得到最优决策。
它是一个后向博弈论的过程,我们建立的产品用于我们的风险解决方案中;二是找出AI模型中最重要的特征变量,并向业务专家解释。
效果是第一位的。
我刚才讲的是技术。
现在你可以看看练习的结果。
左边第一个是具有时序特征的结果。
主要指标是模型判别力、KS值和AUC。
按照KNN通常的做法,KS值为0,然后用神经网络做MLP,KS值达到0。
添加这些特征后,KS值可以进一步提高到0。
在典型场景下,添加行为数据,KS值可以达到0。
几乎增加了50%以上。
二是短文本信息抽取模型的效果。
传统方法和使用AI模型的方法在数值表现上类似,但后者更具可扩展性,因为它本来就需要人们非常有经验并时刻思考应对策略。
未来,这个框架将不再需要人类调整参数,机器将取代人类的部分工作。
第三是社交网络数据的利用效果。
如果我们只使用个人风险数据,KS值为0.3。
添加我们基于图的特征后,出现了与人群相似的特征,明显提高到了0.38。
这是相当惊人的结果。
右侧是以上三类数据相加后的综合表现。
我们还可以看到KS值在增长。
从个体数据处理经验迁移到群体 刚才讲了一些个体风险的数据处理经验,现在讲群体风险和解决方案。
近两年来,反洗钱、可疑交易监控方面监管非常严格。
过去,国内对个人欺诈风险的监控主要基于规则和个人报告。
风险运营部门需要大量的人工去查找,效率非常低。
现在诈骗手段层出不穷。
,你需要利用人类规则和以前的欺诈事件来训练机器来捕捉它。
过去,为了捕捉可疑交易,需要雇用一百个人来手动查看它们。
现在,一百名从事风险作业的人员正在等待,看看机器提供的样本是否正确,然后反馈给机器,让机器训练更加准确。
这里的关键是使用图算法。
在互联网行业,有专门研究图算法和图解决方案的公司。
他们提供了解决方案,但并不是很成功。
总结起来,主要原因有两个。
一是降维需要基于行业知识来进行;二是需要一个有效的计算系统。
我们的列式计算引擎可以在15分钟内处理数百亿数据,这在以前是不可想象的。
还剩五分钟,我简单说一下如何处理。
最下面是原始资金的交易流向。
我们知道银行的交易量是非常大的。
如果不大,可以手动解决。
交易流程形成两件事:第一,相互账户交易会构建一个大Graph。
我们将给出之前的可疑种子节点,通过局部社区算法找到与其关联的可疑子社区。
例如,放入 100,000 个 Suspicious torrent,找到 100,000 个与其相关的社区。
这10万个社区里有数亿个账户。
其中90%以上都是好人,所以我们重点关注剩下的10%。
此外,我们根据风险专家的经验形成风险知识图谱。
这就是一般风险专家会从金额、模式、速度、场景等方面考虑交易的特征。
将这两件事结合起来创建图的深度学习预测模型。
在该模型的指导下,它是由单个种子触发的。
使用ACL优化的PPR算法,加上Sweep-cut算法,实现大规模挖矿。
最后,做一件事:通过种子节点找到密切的社区,学习图的结构,找到更多可疑的人。
解释完原理,我再举一个例子。
例如,某大银行的抵押系统发现,有几十个账户与一个名叫“X琴”的人有关,并且与她有很多金融交易。
X琴可能是一个中间人,或者是一个为人们提供首付和桥梁的专业人士。
是的,这里肯定有什么不正常的地方。
如果单纯依靠人工搜索,很难从数十亿的交易数据中找到这样的东西,但通过图挖掘你可以清楚地看到X秦的账户出了问题。
这就是我们今天分享的内容。
最后我们想说一下“AI+金融”的实践。
作为外行人,我们很幸运能够与金融专家合作并得到可以接受的结果。
希望更多的同学能与我们有更多的合作。
谢谢大家好。