网贷逾期大数据多久才会清一次?网贷大数据花了怎么修复?
网贷 逾期大数据多久才会清一次?网贷大数据花了怎么修复?
网贷逾期大数据多久才会清一次?
现在记录个人信用平台有很多,比如央行 征信 系统、网贷大数据、 支付宝 芝麻信用分等,央行征信记录这个人过往的信用记录,主要是银行的借贷服务;
支付宝芝麻信用分主要记录着支付宝履约情况;网贷大数据主要记录着个人在网络 贷款 上的情况,当网贷出现了逾期,网贷大数据会多长时间请一次呢?
网贷大数据清除时间是三个月一次,会将个人以往的不良贷款记录都自动清除,但是需要个人将所有欠款都还清。
若是还有网贷平台存在欠款的情况,大数据中的不良贷款记录会一直保存,想要清除个人不良贷款记录最好的方法就是先还款,然后等待三个月。
现在支付宝中有奋腾数据,这个里面就记录了全国98%以上的网络贷款平台数据,同时还记录着借款人的网络贷款历史情况、还款情况、逾期情况、黑名单等,进入后即可查询。
网贷大数据花了怎么修复?
当在众多网贷平台贷款,多次查询网贷大数据的情况下就可能造成大数据变花,从而会影响到个人网络借款,网贷大数据变化要怎么修复呢?
1、还清借款
网络贷款出现了逾期会知道导致大数据不良记录,只有还清了借款平台才不会继续上传个人的逾期不良信息,还清后三个月即可修复网贷大数据。
2、不再网贷
每次注册网络贷款平台,申请网络贷款后,借款平台都会查询网贷大数据,申请的平台越多,大数据显示的就越多,因此会被平台认为你非常缺钱,还款借款后不再使用网贷。
3、减少网贷大数据查询次数
每次查询大数据都会有记录,查询的越多对自己越不利。
网络贷款确实能让我们享受到快速贷款的便利,但是也会存在高额利息,逾期还会影响到自己信用。
Lending Club贷款数据分析
可视化报告见: 报告全文
Lending Club是美国的一家P2P金融机构,主要是通过连接投资人和借款人来达成双方的投资及融资需求,收入主要来源于交易手续费、服务费和管理费。自2007年起,Lending Club已经为上百万客户提供了贷款。2015年,平台全年新设的贷款金额就已经达到了83.6亿美元,远远超越行业第二的37亿美元,优势十分明显。
Lending Club会对提交申请的借款人进行 资格审查 ,只有符合标准才能拿到借款:(1)FICO分数(根据Experian、TransUnion、Equifax三大征信局信用报告)要在660分以上(2) 债务收入比例 要低于40%(3) 征信报告 :正在使用的循环账户不少于2户、6个月内征信查询次数小于5次、至少36个月的信用记录。借款人通过初始信用审查后,Lending Club会再次通过评分模型对申请人进行评估,两次的结果将会一起输入Model Rank中,最终得到一个基础风险子级。Lending Club会根据这个风险子级结合客户贷款的金额和贷款期限得出最终子级。最终子级共有35个级别,分为A、B、C、D、E、F、G这7 个等级,每个等级又包含1、2、3、4、5 五个子级。最终子级的不同对应了不同的贷款利率, 子级等级越高,贷款利率则越低 。
根据Lending Club的分级流程,借款申请人越符合平台资格审查的标准,最终的风险等级越高,借款所需的利率也越低。所以本文通过以下几个问题,借助SQL对Lending Club 2018年第二季度的贷款数据进行分析,探究 平台的审查条件是否合理 :
1.哪个信用等级的还款意愿最高?坏账主要集中在哪个风险等级?
2.资产负债比率越低,还款能力是否越高?
3.6个月内征信查询次数越少,还款意愿是否越高?
4.过去2年内逾期30天以上的次数越少,还款意愿是否越高?
5.还款能力是否与客户贷款目的有关?
数据集来自: Lending Club
将数据导入SQLyong后,观察数据特征:数据包括2018年Q2的贷款数据记录,共130770多行,多达145个字段,本文只选取一些 关键字段 作为分析:
loan_status :贷款状态(Fully paid-全额还款 Charged off-已注销的坏账 Current-当前 Default-违约不还 Late 31-120 days-逾期31-120天 In grace period-宽限期内 Late 16-30 days-逾期16-30天 Issued-已放款)
grade :信用评级
dti :资产负债比(负债总额/资产总额)*100%
inq_last 6mths :近6个月查询次数
delinq_2yrs :近2年逾期30天以上次数
annual_inc :年收入
emp_length :工作年限
purp.o.s e :贷款目的
1.修改表名
将表名修改为Lending Club贷款情况
2.选择子集
由于原数据字段太多,所以只挑选了以上8个关键字段作为分析
3..列名重命名
为了方便分析,把字段名重命名为中文名:
方法一:可通过SQL语句实现字段重命名
方法二:也可以直接在客户端内双击字段名进行修改,因为字段较多,本文采用这种方法修改名字
4.删除重复值
由于每行数据都是一个客户id,所以不存在重复值
5.处理缺失值
通过语句查询发现资产负债比存在空值,本文不进行删除,直接将null值作为一类。依次查询其他列没有发现其他缺失值
1.哪个信用等级的还款意愿最高?坏账主要集中在哪个风险等级?
将还款情况分为还款正常和逾期还款,还款正常包括Fully Paid 、Current、In Grace Period,逾期还款包括Late (16-30 days)、Late (31-120 days)、Charged Off、Default
输出结果:
由此可知信用等级A-C的放款人数最多,还款意愿也最强,随着信用等级变低,正常还款数量开始降低,坏账率逐渐上升。
2.资产负债比率越低,还款能力是否越高?
观察数据发现,资产负债比的区间为【0,999】,按照步长为10分为[0,10)、[10,20)、[20,30)、[30,40)、(≥40)五个区间,另外加上null值,共6个区间。
输出结果:
由图可知资产负债比与还款意愿总体呈现反比趋势。客户的资产负债比越低,还款意愿越强,在20%-30%区间内,还款占比最高,之后逐渐开始下降,逾期比例上升,还款能力降低。资产负债比为空值的客户逾期还款率高达1.23%,需要对未填写资产负债比的客户进行放款控制。
3.6个月内征信查询次数越少,还款意愿是否越高?
输出结果:
近6个月查询次数与还款意愿有一定的联系,普遍来说查询次数越高,逾期还款的占比越大。但是查询次数为4次时比较特殊,这一次数下的逾期还款为0,可能为该季度的特例导致。总体来看,还款意愿与查询次数还是存在反比的关系。
4.过去2年内逾期30天以上的次数越少,还款意愿是否越高?
输出结果:
由图可知当逾期次数在0-5次时,次数与逾期占比呈现正比关系,过去2年内逾期的次数越多,造成坏账的比率就越大。但当次数超过5次时,正常还款占比都远高于逾期还款占比。仔细分析逾期次数超过5次的具体数据可知,除了逾期超过7次的客户有1次逾期还款,其他次数的逾期还款人数都为0,从而使得正常还款占比反而较高。也可能是Lending Club对于逾期次数太多的客户控制了放款通过率。总体来说,当逾期次数在0-5次这个区间时,次数越小,还款意愿会越高。
5.还款能力是否与客户贷款目的有关?
输出结果:
由图可知,因为搬家、旅游、医疗等情况下,逾期还款的占比远远高于其他情况,而因为自身债务或信用卡等问题造成的逾期比例反而不高,所以对于不同的情况需要采取不同的风险监控措施。
通过本文的分析,Lending Club制定的审查条件基本合理:
1. 信用等级越高,还款比率越高 。A-C信用等级区间内的放款人数最多,正常还款的数量也最多,随着等级的降低,坏账率开始上升。证明平台的等级区间划分的基本合理。
2.整体来看,客户的 资产负债比越高,还款意愿越低 ,特别是对于 未提供资产负债比 的客户,逾期还款比例最大,所以需要 加强对这一部分客户的监管 ,督促客户尽快提供相关信息,降低未来的贷款坏账。
3.平台对于近6个月内征信查询次数需小于5次这一规定比较合理。根据分析得知, 次数为0-4次时客户的逾期比率很低 ;当次数为5次时,逾期占比大幅升高。
4.对于客户 近2年内的逾期次数,如果次数在0-5次区间内,次数与还款意愿成反比关系 ,平台需要对次数较多的客户加强管控,避免坏账率上升。而对于 次数超过5次 的客户,根据分析可知,这一部分的客户人数本身就较少,基本上都能够做到正常还款,所以对于这一区间的客户,只要延 续以往的风控措施 即可。
5.本文还对 贷款目的 进行了分析,结果显示对于未来有 旅游、搬家或者医疗需要 的客户,平台需要多加关注,以降低未来坏账率。
基于python的prosper借贷平台之数据分析
项目介绍:
p2p 借贷业务具有门槛低,渠道成本低的特性,风险防控对于出借企业来说非常重要。本项目需要
从大量借贷者的数据集中分析出容易违约和不容易违约的人群画像特征,以给业务做贷前决策使
用。同时使用机器学习算法,实现自动识别风险人群(精准率为 89.86%),加快人工审查效率。
项目具体内容:
1、使用 python pandas 工具进行数据清洗、缺失值、异常值处理以及特征指标筛选。
2、使用 python matplotlib 可视化工具进行探索式数据分析,展示用户关键特征如月收入、信用卡
透支情况对于违约率的影响情况。
3、使用机器学习随机森林进行建模分析,使用学习曲线、网格搜索、交叉验证,最终得到了一个评
分为 84.9%、精准率为 89.86%、召回率为 80.70%、auc 面积为 0.9337 数据预测模型。
本次数据训练使用的模型是随机森林分类算法,通过对预处理过的数据集进行训练,使用学习曲线、网格搜索、交叉验证。最终得到了一个评分为84.9%、精准率为89.86%、召回率为80.70%、 auc面积为0.9337 数据预测模型。
数据预处理的基本流程与思路:
1、首先要明确有多少特征,哪些是连续的,哪些是类别的。
2、检查有没有缺失值,对确实的特征选择恰当方式进行弥补,使数据完整。
3、对连续的数值型特征进行标准化,使得均值为0,方差为1。
4、对类别型的特征进行one-hot编码。
5、将需要转换成类别型数据的连续型数据进行二值化。
6、为防止过拟合或者其他原因,选择是否要将数据进行正则化。
7、在对数据进行初探之后发现效果不佳,可以尝试使用多项式方法,寻找非线性的关系。
8、根据实际问题分析是否需要对特征进行相应的函数转换。
导入数据集,并查看数据基本情况。可以看到prosper原始数据量比较庞大,一个有113937个样本,80个特征列,1个标签列。
1.1、特征较多,先共删减一部分无用的特征。
1.2 查看数据缺失情况,可以看到有40个特征是存在数据缺失的,缺失率从0.000219-0.882909不等。下面处理缺失数据。
1.2.1 删除缺失值比较多的特征
下面两个特征缺失率太高,且与我们要分析的相关性不大,直接删除掉。
1.2.2 获取数据类型是分类变量的所有特征,并使用unknown进行填充
1.2.3 特殊变量使用计算公式进行填充
1.2.4 去掉意义重复列
1.2.5 删除缺失率比较少的特征的缺失数据行
处理完缺失数据后,样本量为106290,特征量为55
1.3 数据过滤
1.3.1 从2009年7月开始,Prosper调整了对客户的评估方式,此次我们只对2009-07-01后的贷款进行分析。
过滤完数据后,样本量变为82931,特征量为54
2.1单变量分析
0为未违约人数,1位违约人数,可以看到2009.07以后,违约率为22.90%
2.1.1不同地区贷款数量分布
从图中可以看到加利福尼亚州贷款数量远比其他州的数量高。由于prosper总部就位于加利福尼亚州,这与实际情况一致。其他排名靠前的分别是得克萨斯、纽约、佛罗里达、伊利诺伊,贷款数据均超过了5000条。根据2015年美国各州的GDP排名,这5个州刚好排名前五,而且顺序也是一致的。说明Prosper平台的用户主要分布在美国经济发达的地区。
2.1.2 贷款人收入情况分布
年薪在25000美金以上在美国属于技术性白领或者有一定学历的职员,50000美金已经是近金领阶层,比如:大学教授,医生等。从图中可以看出Prosper平台用户的收入水平都相对较高,有利于用户还款,利于平台和投资者的风险控制。
2.1.3贷款人职业分布
从图中可以看出,除了不愿意透露具体职业的人,大部分用户是教授、程序员、企业高管等具有一定社会地位的人,这部分人受过高等教育,信用有一定保障。另外,这与之前看到的收入情况相符。
2.1.4贷款人债务收入比分布
大部分用户的债务收入比在0.2左右,超过0.5的占很少部分。说明Prosper平台用户的还款能力还是比较乐观的
2.1.5 贷款者信用卡使用情况
BankcardUtilization代表的是信用卡使用金额和信用卡额度的比值,可以体现用户的资金需求。Prosper用户多是0.5~1之间,说明用户每个月还有信用卡要还,降低了其还款能力。
2.2 相关的关键因素对贷款违约率的影响
2.2.1借贷人收入IncomeRange对违约率的影响
从图中可以看出:
1.一般来说收入越高违约率越低
2.贷款的人员主要集中在中等收入群体
2.2.2 债务收入比DebtToIncomeRatio对违约率的影响
从上图可以看出:
1.债务收入比小于0.6时,违约数明显小于未违约数,
2.当债务收入比大于0.6时,两者的差距不是很明显甚至违约数大于未违约数,说明了债务收入比越大的人越容易违约
2.2.3 借款人BankcardUtilization对违约率的影响
1.总的来说,随着信用卡的透支比例越来越高,违约率也越来越高
2.SuperUse的违约率到了37.5%,这部分人群需要严格了监控,No Use人群也有31%的违约率,当初将信用卡透支比例为0和NA的数据都归类为No Use,显然没有这么简单,应该是大部分人群的NA值是为了隐藏自己的高透支比例而填写的
2.2.4 消费信用分CreditScoreRange对违约率的影响
从上图可以看出:
1.随着信用分数CreditScore的上升,它的违约率在下降
2.大部分贷款者的信用分为650-800,违约率在0.06-0.02
2.2.5 过去7年借款人违约次数DelinquenciesLast7Years对违约率的影响
过去七年违约次数(DelinquenciesLast7Years)能够衡量一个人在过去七年中征信情况,违约一次或以上的人在借款时违约概率更大。
从上图可以看出:
1.总体来说过去7年违约次数越多,违约率越高
2.过去7年未违约的人数相对来说比其他违约的人数高很多,具体看下面的分析
3.1 数据转化
3.1.1类变量进行哑变量化
样本量变为82931,特征量为127
3.1.2 标签变量进行二分类
已完成贷款的样本量变为26365,特征量为127
未违约率为:0.7709084012895885;违约率为0.22909159871041151
3.2 至此,数据预处理的工作就告一段落,保存预处理好的数据。
导入经过预处理的prosper借贷数据集
4.1 手工挑选特征查看一下建模效果
准确率为0.7695
4.2 使用模型自己选取特征
准确率为0.7780
4.3 使用学习曲线选取最优n_estimators
在0-200/20内学习,得到最优n_estimators=161,score = 0.8508
在151-171/20内学习,得到最优n_estimators=163,score = 0.8511
4.4 使用网格搜索调其他参数
在0-60/5内学习,得到最优max_depth=41
在0-60/5内学习,得到最优max_features=16
这里由于比较耗时,没有进一步细化选择更高的参数
4.4 最终模型效果
最终准确率 0.8490528905289052
混淆矩阵 :
[[5552 554]
[1175 4914]]
精准率 : [0.82533076 0.89868325]
召回率 : [0.90926957 0.80702907]
roc和auc面积为0.9337
4.5 查看各特征的重要性
4.6 数据预测
预测的违约率0.0427
请问网贷大数据怎么查谢谢!
查询网贷大数据可以通过第三方平台进行查询。网贷大数据各大平台查询方式简单多样,只要提交姓名,身份证以及手机号就可以获得一份详细的查询报告。
查询平台目前比较有名的大数据查询系统有同盾,闪电查询、云风控、大数据、网信专家等。
网信专家查询系统分为综合风险考核,大数据信用查询,运营商报告查询,银行流水,信用卡数据查询五个版块,可以在这五个版块中查询网贷黑名单、网贷申请记录、逾期记录、个人贷款记录,个人网贷记录,个人多头借贷记录,个人互联网金融P2P平台贷款记录等各种数据。
并且在查询的过程中还会对你的申贷信息以及多平台交叉验证信息中,快速识别低信用用户、借贷欺诈风险。使用到手机(型号:HLK-AL00)。
拓展资料
一、如何查询个人信用报告
1、央行查询个人征信报告
(1)一般可以去两个地方,第一个就是央行的当地的总行,直接带上自己的身份证以及自己的有效的证件,可以直接去银行总行找客服经理填写申请表后就可以办理你要查询个人征信的业务了。
(2)有的地方是央行专门有设置一个征信管理部门,带上自己得有效证件去查询也是可以的,最好是打印下来。
2、网上查询个人信用报告
如果在网上有逾期记录或者在多个平台有借贷记录,那么你的各种记录都会被大数据风控,这时你的网贷平台就会频频被拒的,甚至连你的花呗借呗也会被关闭。
二、进入网贷黑名单如何消除?
1、去网贷平台查询自己的详细借贷记录,看自己借贷的款项,以免不法分子利用自己的个人信息进行的借贷,如发现不是自己借贷的,而是他人或者不法分子盗用,应该立即报警,然后联系借贷平台说明情况。
2、查询完自己的详细借贷记录后,然后确认是自己借贷的款项,这时应该把自己拖欠的款项,全部还清然后再联系相应平台的客服,让他们平台进行消除。
3、当平台回应不能消除,那么就等还清借贷的款项后,进行自动的消除了。一般在我们个人的征信报告中只会显示最近5年的征信记录。
4、要按时还清自己的所借贷的款项,不要拖欠。
5、保持自己的良好信誉,不要被网贷拉入黑名单,避免自己在其它的信誉方面收到影响。
网贷大数据多久清一次,进了黑名单怎么办?
一、正面回答
网贷大数据3个月会自动清除一次,只要用户按时归还欠款,或者及时还清逾期的欠款,那么正常还款记录、逾期记录都会3个月清除一次。
二、具体分析
如果没有还清逾期的欠款,正常还款记录3个月清除一次,逾期记录则会继续保留在网贷大数据中。只要用户的网贷大数据中没有逾期记录和频繁申请导致的多头借贷,那么用户的网贷大数据就是良好的,这样不会影响用户后续申请网贷。
注意不要相信一些声称可以帮你清理大数据的人,网贷大数据只能优化,任何人都无法清理。
网贷用户也可以通过对接第三方大数据风控平台查询自身的信用资质,比如,贝尖速查、芝麻信用等等,前者已与市面上98%以上的网贷机构建立了数据合作,所以它的查询结果是专十分准确。直观的,不仅可以了解自身的大数据与信用情况,还能获取各类指标数据。 网贷黑名单数据在大多数贷款平台都是共享的,也就是说借款人如果在一家平台出现逾期或者欠钱不还,这样的不良记录也会在其他贷属款平台公开,所以大家一定要细心维护好自己的网贷信用,否则当大家再次遭遇经济危机时,就不能凭良好的个人信用获取网贷产品了。
三、综合评分不足哪里可以查原因?
综合评分不足的原因有还款存在逾期、负债水平过高、征信查询过多、信息不够真实、资产水平不足,具体说明如下。
1、还款存在逾期。
大多数银行或其他金融机构在审核用户的征信报告时,会着重查看贷款还款记录和信用卡还款记录,2年内是否存在连续3次,或者累计6次的逾期记录,是考量用户贷款综合评分的依据,如果用户还款习惯较差,贷款和信用卡存在逾期的话,就会导致综合贷款评分不足。
2、负债水平过高。
用户的征信报告中的贷款记录一栏中记录了每笔贷款的贷款金额、贷款期限、剩余本金等信息,信用卡账户一栏中记录了每个信用卡账户的发卡机构、授信额度、已使用额度等信息。
如果用户的贷款记录和信用卡记录中,存在较高负债,或者信用卡账户中已使用额度占授信额度的比例过高,则证明用户资金比较紧缺,贷款机构的评估系统会将贷款综合评分调低。
3、征信查询过多。
用户征信报告的查询记录一栏中,记录着用户2年内因为申请贷款或者信用卡而查询征信报告的记录,如果1个月内贷款审批和信用卡审批次数之和超过5次,3个月内超过10次,系统就会认为用户短期内存在资金短缺的情况,进而影响系统对于贷款综合评分的判定。
4、信息不够真实。
用户在申请贷款时提交的信息真实水平也会影响贷款综合评分的认定,如果用户提交了虚假的个人信息,或者是失效的个人信息,比如过期的身份证、非本人实名办理的手机号码和银行卡等,系统就会调低贷款综合评分,影响贷款的正常审批和发放。
5、资产水平不足。
用户在申请贷款时提交的个人收入和资产证明信息也是贷款综合评分的判定依据,在申请贷款时,如果用户提交的个人工资流水和资产证明不够充分,无法满足贷款平台最低还本付息的资产水平要求,那么就会导致综合评分不足。
美国网贷平台Prosper贷款数据分析
本文主要描述了如何用Python对数据集进行评估,整理,清洗。
完成这一过程后,再通过Tableau对问题 “Prosper违约客户具有哪些特点” 进行探索,分析和可视化。
最后,用随机森林算法对2009年7月后数据进行建模分析,并对仍在进行中的贷款进行违约与否的预测。
Prosper是美国第一家P2P借贷平台。此数据集来源于Udacity上的Prosper 2005~2014年的贷款数据。本文希望能通过对已完成贷款的分析,判断出什么类型的客户更容易违约,并预测还未完成的贷款是否会违约。
原始数据集共包含81个变量,113937条数据,下面对部分重要变量进行说明,其他变量含义可参考 变量词典 。
首先加载库和数据。
然后用df.describe(),df.info()观察数据。
此次主要分析1.什么类型的借款人更容易违约。 2.预测未完成的贷款是否会发生违约。所以去掉无关列。
从2009年7月开始,Prosper调整了对客户的评估方式,此次我们只对2009-07-01后的贷款进行分析。
去掉意义重复列:
Prosper对于新客户的评分和老客户有所区别,此次仅针对新客户数据进行分析。
首先查看下,各变量数据缺失情况。
平台把借款状态分为12种:Cancelled(取消)、Chargedoff(冲销,投资人有损失)、Completed(正常完成,投资人无损失)、Current(贷款还款中)、Defaulted(坏账,投资人有损失)、FinalPaymentInProgress(最后还款中,投资人无损失)、Past Due(逾期还款,投资人无损失)。
本文依据交易是仍在进行中还是已关闭,以及已关闭交易中投资人有无损失将所有数据分成以下三组:
Current(包含Current,Past Due)、
Defaulted(包含Defaulted,Chargedoff)、
Completed(包含Completed,FinalPaymentInProgress)。
为了便于后续分析计算,再将“Completed”改为1,“Defaulted”改为0。
已完成的贷款的违约率为defaulted_ratio_finished =26.07%
此数据集有多个特征体现了贷款用户的信用情况。其中,信用等级(ProsperRating)是Prosper根据自身模型建立,是用于确定贷款利率的主要依据,而信用评分(CreditScore)则是由官方信用评级机构提供。
由图5-1可以看到,随着信用等级(ProsperRating)的不断升高,违约率呈现明显的下降趋势。
而在信用评分(CreditScore)中,低分段(640-700),违约率处于比较高的位置,且没有太大变化。大于720的部分,随着信用评分的升高,违约率明显下降。
说明整体而言,借款人的信用水平越高,违约可能性越低。
在不同年收入(IncomeRange)中,Not employed的借款人,违约率最高,随着收入增加,违约率不断降低。
在不同贷款状态下(Status),违约用户的整体月收入(MonthlyIncome)明显低于未违约用户。
根据图5-4的左图,违约用户与未违约用户的整体负债收入比差异不大。
再根据负债收入比(DebtToIncome)的四分位点,将所有数据分成数据量接近的四组。从图5-4的右图可以看到低比例(负债收入比0-0.12)与中等比例(0.12-0.19)的违约率都较低。较高比例(0.19-0.29)的违约率略高于前面二者。但高比例(大于0.29)的用户违约率显著升高。
根据银行卡额度透支率(BankcardUtilization)的四分位点,将数据分成 '未使用','较低透支(0,0.3]','中等透支(0.3,0.7]', '较高透支(0.7,1]','严重透支(1,5]'五组。
可以看到,严重透支的借款人,违约率最高。
其次是未使用的用户,这也是为什么金融机构对于“白户”会格外关注的原因。
近半年征信查询次数(InquiriesLast6Months)可以反应出借款人近期向金融机构申请借款的频繁程度,间接体现了借款人近期的资金状况。
图5-6中,绿线表示不同查询次数下的借款笔数。可以看到,绝大部分在7次以下。
而在查询次数0-7区间内,违约率随着查询次数的增加而升高。
当前逾期(CurrentDelinquencies)可以很好的反应出借款人的信用情况。
由图5-7,可以看到大部分借款人的当前逾期在2次以内。而在0-6的区间内,违约率随当前逾期数的增加而升高。
为了避免某些数量极少的分类对违约率排序的影响,首先筛选出借款笔数在30以上的分类。
由图5-8可以看到,数量最多的是1- Debt Consolidation(债务整合)。
而违约率最高的依次是15- Medical/Dental(医疗),13-Household Expenses(家庭开支),3-Business(商业),均高于30%。
根据贷款金额(LoanAmount)的四分位点,将数据分为数量接近的四组。比较有意思的是,中等借款(3100,4750)的违约率最高,而高额借款(大于8500)的违约率反而最低。
这很可能是因为能申请到高额借款的用户,各方面条件都不错,从而降低了违约率。
由图5-11可以看到,在0-30区间内,随着持续时间的增长,违约率逐渐降低,而这一区间也包含了一半左右的数据。
当持续时间继续增长,违约率看不出有明显变化规律。
在不同地区之间,违约率也存在比较明显的差异。LA,SD等城市,违约率较高。UT,CO等城市,违约率较低。
整体而言,有房产的借款人,违约率要明显低于无房产的借款人。
导入相关库。
将数据中的字符串变量,均转换为数字。
按照测试集30%,训练集70%的比例划分数据集,并使用随机森林算法,建立模型。
该模型测试集预测准确率为:accuracy=73.99%
对于随机森林算法,可以查看在这个模型中,每个特征的重要程度。
如图6-2所示,StatedMonthlyIncome和EmploymentStatusDuration两个特征最为重要。
根据此模型,对目前仍在进行中的贷款进行违约与否的预测。
仍在进行中的贷款违约率为defaulted_ratio_predict =3.64%
本文详细描述了对于Prosper贷款数据,从数据探索到建立模型,并进行预测的完整过程。
发现月收入(StatedMonthlyIncome)以及受雇佣状态持续时间(EmploymentStatusDuration)对是否会违约的影响程度最大。主要是因为这二者是体现借款人稳定性的重要因素。
而在模型建立方面,还可以调整此模型的参数,来进行改进从而提高准确率,也可以尝试使用其他算法,如逻辑回归等,建立新的模型进行比较。
关于贷款平台数据和贷款平台数据怎么查的介绍本篇到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。
还没有评论,来说两句吧...