当前位置: 首页 > 科技观察

宜信郑云:大数据金融云实践分享

时间:2023-03-19 10:47:00 科技观察

宜信积累了九年的数据,有的来自合作伙伴,有的是用户授权,有的是在互联网上公开抓取的数据。因此,我们希望借助大数据技术,挖掘数据潜力,尤其是互联网金融的价值,为客户提供更好的服务。宜信技术总监郑云负责研发多款大数据驱动的互联网金融创新产品。加入宜信之前,曾在美国在线视频公司Hulu担任研发经理,负责视频播放和主站的技术研发。他还曾在微软从事研发工作。郑云毕业于清华大学自动化系,获硕士学位。LAIN平台郑云表示,无论是云平台还是系统,平台都要稳定,要有支柱。一是大数据基础设施,二是基于Docker的LAIN平台。不同业务之间的数据建模是不同的。但是比如像开发环境,像测试,包括自动化测试,定期测试,包括发布,包括技术服务,比如日志收集,监控,包括分布式架构,像操作系统,网络,安全等等,这些在其实它们都是通用的,所以我们把它们放在一起做一个平台,就是我们的云平台,也就是我们常说的Pass系统。Docker是近两年特别火的一项技术,尤其是今年年初。首先,它是一个开源容器引擎。其次,它实际上是为了进一步解决虚拟化的问题。有了这个Docker,我们就可以把每个模块都集成到Docker里面来做,Docker之间是相互独立的。然后通过这种微服务的方式串联起来,非常灵活。它的性能也非常好,开销几乎为零。最核心的就是Docker,它有三大技术,所谓三驾马车,第一个就是DockerSwarm,DockerSwarm是Docker官方提供的Docker容器管理和调度工具,因为是官方提供的,所以它具有先天的优势一体化。然后是ETCD。ETCD是一个非常有名的轻量级分布式一致性存储。我们主要用它来做一些配置存储,比如服务注册和服务发现。Crlico是通信公司开源的一套网络技术。它是一个三层的SDN,可以替代Docker之前定义或端口移植的传统方式。知识图谱什么是知识图谱?与传统文档或结构化数据相比,它有一个特点,就是它有实体。最早由谷歌提出,用于搜索优化,我们主要用于风控相关的数据建模。还有个性化问答,可以根据客户信息甚至个性化提问进行反欺诈。首先在web端,我们会使用我们的分布式查询,把这些公开的数据和一些用户授权的数据排除掉,然后分到HDFS中。然后我们把我们的业务数据通过Sqoop放到我们的HBase里面,所以我们提取出来,最后结构化形成这样一个知识图谱,然后在这个知识图谱里面,我们常用的查询字段丢到ElasticSearch里面,然后提供给所有的使用前台,知识图谱也可以作为规则引擎和机器学习的数据源。如何解决实时授信中的反欺诈问题实时授信首先要解决反欺诈问题。所以,我们会从三个方面来做反欺诈。一是他的身份。首先我们要确认你妈是你妈,你是你,所以我们会核实他的平台账号是否真实,个人身份信息是否真实,然后通过一些个性化的问答来确认他的真实性信息。第二点就是看他的行为数据,比如他的经营活动有没有欺诈的痕迹,这个人有没有进过网络上的一些中介论坛,有没有参与过这样的活动。第三个方面是他的关系层次。比如这张图上的黑圈就是黑名单,红圈就是逾期客户。然后通过各种数据,计算出综合信用评分,再通过评分来决定审批和风险评估。Data-drivenmethodologyData-driven从方法论的角度来说,首先要有海量的数据,其次我要对数据进行分类,然后对数据进行分析,最后用数据来驱动我们的产品决策。对数据进行分类后,再对数据进行进一步的分析。一种是根据现有数据来解释现象,也就是我们知道为什么会这样。第二个更重要的是我们希望通过这个,我们可以用数据来指导和优化未来,这也是很多企业想要追求的目标。总结一下整个演讲:首先,我们整个金融云需要一个底层支柱,就是我刚才讲的大数据基础设施和刚才讲的云平台。反欺诈、实时授信等模块,***我们通过这个平台,通过两端产品,商业贷款和理财产品,不断优化整个产品,以及优化下面的核心模块,以及然后让整个平台形成一个完整的框架。基于这个框架,我们希望为我们的用户提供更好的服务。也在和合作伙伴进行数据对接,提供一些面向服务的场景。