当前位置: 首页 > 科技观察

大数据与行为预测模型——刘志军

时间:2023-03-16 11:15:22 科技观察

今天想聊聊大数据与行为预测模型。你为什么要说这个?即刻消费金融公司是持牌消费金融公司,即拥有国家银监会颁发的营业执照。首先,我们是一家创业公司,因为我们是从零开始的,团队很小,同时我们是一家互联网公司,因为我们要搞线上业务。同时,我们是一家大数据公司,这就是我今天要简单介绍给大家的。刘志军博士,马马金融副总经理,前美国五大银行之一CapitalOne统计分析部高级总监。刘志军拥有博士学位。宾夕法尼亚州立大学学士学位,中国科学技术大学学士学位。我们的消费金融业务和其他消费金融、互联网公司本质上是一样的,只是手段上可能有差异。我们的业务是基于数据的,包括央行征信局的征信数据、社保数据、公安部数据、互联网上的数据。这些大量多样、高维、动态的数据将支撑整个业务,包括从产品设计到营销,再到风控策略、客户管理、最终采集,为我们提供决策依据.更不用说业务性质了。消费金融有几个特点。首先是数量少。个人消费金融不能特别大,20万定义为上限。二是去中心化。我们不像做大生意的银行,几十亿的大单放出去,所以比较中心化。我们是去中心化的,我们是和全国的老百姓打交道。三是人数多。我们有14亿人。除了未成年人,其他都是可能的客户。四是短期。我们的决策不需要预测10年、20年,也就是一年、两年,甚至几个月。会出现三类问题,一类是聚类,把客户分成一类。另一个是模式识别,其中目标是预先设定的。还有预测,就是根据你得到的数据来预测某个特定客户的行为。这三类问题归根到底还是预测问题。预测归结为数据或统计数据。这是一个非常简单的问题。问题的表述非常简单,但解决方案却不是那么简单。许多实际问题都是首先将其归类为二元回归模型。以我们为例,风险可以设置为0和1,即是或否。具体有两种可能:能不能还贷。所以目标变量称为Y,它是0和1。使用什么来进行预测取决于您可以收集哪些数据以及这些数据与它的相关性。这取决于两个条件,一是你有没有数据,二是你数据的质量,和你要解决的问题的相关性。现在大家都在说做大数据。每个人手里都有数据,都觉得很有价值。它确实很有价值。但是,它与各种问题的相关性有多强,还有待验证。价格越强,价格越高。预测值是多少是一个概率。具体怎么设置这个问题,有个performancewindow。我们可以预测的观察结果位于窗口的开头。例如,我们的风险预测是??客户申请贷款时的数据,作为对放款后他的行为的预测。我们要观察给他多长时间合适,要看你的金融产品和你的具体业务。比如你是三个月三期分期的产品,你就不用跑12个月。更一般地说,我们有一个通用的回归模型。比如我们的消费金融,比如说消费的多少,我们可以做预测。尤其是信用卡,一张信用卡能贷多少,跟盈利能力有很大关系。我们有一批真实的数据,真实的收入,用我们的相关变量来预测估计这个收入,可以作为一个模型。也就是说,用一种数据来预测另一种数据。在这种情况下,它就变成了回归模型。由于都是回归模型,所以可以抽象成一个非常简单的回归模型。这个模型是一个条件期望,也就是Y和X比较,X是你L预测的数据,变量,一个条件期望。预测,就是说在大数据的背景下,我们只关心相关性,不关心因果关系。建模方法和时间关系不再详述。我将列出一些方法,您经常听说过这些方法。这里比较传统直观的方法是参数法。说白了,参数法就是把你的预测变量分成小块,然后看你要预测的变量在小块上的观测值的平均值。它是如此简单。具体问题需要具体分析。在构建模型之前,您确实需要了解要解决的问题类型。根据我的经验,您会发现最好的方法是混合。所谓混合,就是通过多种不同的方法组合而成的模型。建模很重要,但是如何使用模型其实更重要。一个好的模型比一个坏的模型更适合一般用途。没有具体的截止值,但是我们针对不同风险的客户群体有不同的风险政策。因此,需要复杂地应用这个模型,并了解如何在其他维度上对其进行优化,这样模型的使用会比简单的切割好得多。***我会准确的说一下建模中经常出现的问题,确实是针对国内现状的问题。美国有问题,但不是这种问题。一是数据覆盖问题。我知道很多组织,很多大公司都有数据,这些数据非常宝贵,他们很难共享。这就造成了覆盖率的问题。每个块的数据覆盖一部分,另一个块的数据覆盖另一部分。这是个问题。二是质量标准不同。可能是同一来源的数据,但经过处理后,标准不同,质量也不同。这导致大量缺失值,导致许多样本存在偏差。如何解决这个问题确实是我们面临的一个大问题,这也是我认为应该用大数据的方法来解决的。综上所述,消费金融的特点特别适合大数据作为行为预测。方法有很多种,看你对业务和方法的理解。根据您的实际情况,您可以选择最合适的方法。通常它不是一个方法,而是你自己创建了一个方法,将几种方法组合起来创建一个混合的东西。模型建成后,并不完整。最重要的是你的模型必须经过充分验证。因为这里重点是要讲相关性。如果相关性不是因果关系,那么模型很可能会失败并且您不知道发生了什么。有一天模型会完全没用,你不知道它是怎么发生的。因为这不是因果关系的问题,而是相关性的问题,是在一定条件下产生的。一旦这个特定条件不存在,这个相关性就不存在了。所以验证和稳定性非常重要。还有一点,建模固然重要,但应用更重要。***希望我们的数据共享能够更快更广泛的推进,也希望大家一起努力解决我们目前遇到的问题。