简介:今天,首席CTO Note将与您分享Python预测贷款的数量。如果您可以解决您现在面临的问题,请不要忘记注意此网站。让我们现在开始!
分两个部分计算贷款,最后添加。
投资组合贷款的权益应分别计算出商业贷款和公积金贷款。计算出的公式是“利息=借贷本金×借贷利率×借贷期”。在线贷款计算公式实现了一个可以计算住房贷款的还款计划,支持等效本金和同等的本金和利息的Python计算器。
它可以通过importCSV进行编程;进口;何时:Choice = Intfor详细信息,请参阅在线编程共享。
项目简介:
P2P贷款业务具有低阈值和低渠道成本的特征。预防风险和控制对于贷款企业非常重要。
从大量借款人的数据集中,分析了易于违约且不容易违反的人的肖像特征
在同一时间使用机器学习算法来实现自动识别风险组(准确率为89.86%),并加快手动审查的效率。
特定项目的内容:
1.使用Python Pandas工具进行数据清洁,缺失值,异常值处理和功能指标。
2.使用Python Matplotlib可视化工具分析勘探数据,以显示用户的关键功能,例如月收入和信用卡
透支情况对默认率的影响。
3.使用机器学习随机森林进行建模,使用学习曲线,网格搜索,交叉验证,最后进行评估
它分为84.9%,准确率为89.86%,召回率为80.70%,AUC面积为0.9337数据预测模型。
该数据培训中使用的模型是一种随机的森林分类算法。通过训练有素的数据集,使用学习曲线,网格搜索和交叉验证。最后,得分为84.9%,准确率为89.86%,召回率为80.70%,AUC面积为0.9337数据预测模型。
数据预处理的基本程序和想法:
1.首先,有多少个特征,这些特征是连续的,哪些是类别。
2.检查是否缺少值,并弥补适当的特征特征选择方法以完成数据。
3.标准化连续数字特性,因此平均值为0,方差为1。
4.针对类别特征的一式编码。
5.转换为类别数据的连续数据以获得双重值。
6.为了防止过度拟合或其他原因,请选择是否应正规化数据。
7.在发现数据的初步探索后,效果不好。您可以尝试使用多项式方法来查找非线性关系。
8.分析是否需要根据实际问题来转换功能。
导入数据集并查看数据的基本情况。可以看出,繁荣的原始数据量相对较大。一个有113,937个样本,80个功能和1个标签。
1.1。有许多功能,首先删除了许多无用的功能。
1.2查看缺乏数据,您可以看到40个功能缺乏数据,缺少率在0.000219-0.882909范围内。处理以下缺少的数据。
1.2.1删除功能具有更多缺失值
以下两个特征的缺乏速率太高,与我们的相关性不大,并直接删除。
1.2.2获取数据类型是分类变量的所有特征,并使用未知来填充
1.2.3特殊变量使用计算公式进行填充
1.2.4重复复制的含义
1.2.5删除缺少率较低的数据的数据
处理丢失的数据后,样本量为106290,功能量为55
1.3数据过滤
1.3.1自2009年7月以来,Prosper调整了客户的评估方法。这次我们仅在2009-07-01之后分析贷款。
过滤数据后,样品量变为82931,功能量为54
2.1单个变量分析
0是非违约的数量,违约数为1。2009.07之后,违规率为22.90%。
2.1.1不同地区贷款的分布
从数字可以看出,加利福尼亚州的贷款数量远高于其他州。由于繁荣的总部位于加利福尼亚州,这与实际情况是一致的。最高排名是德克萨斯州,纽约,佛罗里达州和伊利诺伊州有超过5,000个贷款数据。根据2015年美国各个州的GDP排名,这五个州仅是前五名,该订单是相同的。在美国发达的地区。
2.1.2贷方的收入状况分配
在美国,年薪超过25,000美元是一名技术白领工人或一定程度的教育。50,000美元已经接近金领类,例如:大学教授,医生等。从这个数字可以看出,繁荣平台的用户收入水平相对较高,这有利于用户偿还,这有利于平台和投资者的风险控制。
2.1.3贷方的专业分配
从数字可以看出,除了那些不愿透露特定职业的人外,大多数用户是教授,程序员,公司高管和其他具有一定社会地位的人。这些人接受了高等教育,并有一定的信用保证。此外,这与我之前看到的收入是一致的。
2.1.4债务收入比率分配的贷款
大多数用户的债务收入比率约为0.2,并且占0.5的部分部分,即繁荣平台用户的还款能力仍然更加乐观
2.1.5使用信用卡用于贷款
银行卡的化代表信用卡的比率和信用卡金额,这可以反映用户的资本需求。Prosper用户大多在0.5?1之间,表明用户每月都有信用卡可以偿还,从而降低了其还款功能。
2.2有关贷款违约利率影响的关键因素
2.2.1借款人的收入收入对默认利率的影响
可以从数字中看到:
1.一般来说,违反合同越低,较低
2.贷款主要集中于中等收入组
2.2.2债务收入的债务收入对违约率的影响
从上图可以看出:
1.当债务收入比率小于0.6时,违约数量大大低于非违规数量。
2.当债务收入比率大于0.6时,两者之间的差距并不明显,甚至违反合同的数量大于非违规数量,这表明债务收入的可能性越大违反合同。
2.2.3借款人银行卡的影响对默认利率
1.通常,随着信用卡的透支比率越来越高,默认率越来越高
2. Suuperuse的违约率已达到37.5%。这部分人群需要严格监视。No使用人群也具有31%的默认率。一开始,信用卡透支率为0和NA的数据被归类为无用。
2.2.4 CreditScor对CreditsCorrange对默认利率的影响
从上图可以看出:
1.随着信用评分CreditsCore的上升,其默认利率正在下降
2.大多数贷款的信用分为650-800,默认利率为0.06-0.02
2.2.5拖欠7年对过去7年中违约率的影响
在过去的七年中,Delinquieslast7Years已经能够衡量一个人的信用报告,而那些违约的人在借贷时违反合同的可能性更大。
从上图可以看出:
1.一般来说,过去7年中违约的数量越多,默认率就越高
2.在过去7年中没有违反的人数比其他清算人数相对较高。取决于以下分析
3.1数据转换
3.1.1类变量执行愚蠢变量
样品量变为82931,特征量为127
3.1.2标签变量执行两个类别
贷款的样本量已成为26365,特征金额为127
非默认率为:0.7709084012895885;默认率为0.22909159871041151
3.2此时,数据预处理工作将结束,以保存预处理数据。
介绍预处理的繁荣借贷数据集
4.1手册选择功能检查建模效果
准确率为0.7695
4.2使用模型自己选择特征
准确率为0.7780
4.3使用学习曲线选择最佳的n_estimators
在0-200/20中的研究,获得最佳的n_estimators = 161,得分= 0.8508
在151-171/20中的研究,获得最佳的N_estimators = 163,得分= 0.8511
4.4使用网格搜索其他参数
在0-60/5之内学习,获得最佳的max_depth = 41
在0-60/5中学习,获得最佳的max_features = 16
因为这里需要更详细的较高参数,需要时间
4.4最终模型效果
最终准确性0.8490528905289052
混乱矩阵:
[[5552 554]
[1175 4914]]
准确率:[0.82533076 0.89868325]
召回率:[0.90926957 0.80702907]
ROC和AUC面积为0.9337
4.5查看每个特征的重要性
4.6数据预测
预测的违约率为0.0427
能。
在[实用工具]中选择[贷款利率],然后查看您的贷款是每月还款还是还款,输入您借入的[本金]],然后输入[总安装期],在底部计算,即使您自动计算平台的实际年利率。
贷款的算法是固定的。您首先需要弄清楚校园贷款是否等同于本金,利息或同等黄金之类的东西。然后,您可以找到Python编写的相关副本。
结论:以上是首席CTO注释汇编的Python预测贷款的相关内容。希望它对您有所帮助!如果您解决了问题,请与更多关心此问题的朋友分享?