Lending Club贷款数据分析
可视化报告见: 报告全文
Lending Club是美国的一家P2P金融机构,主要是通过连接投资人和借款人来达成双方的投资及融资需求,收入主要来源于交易手续费、服务费和管理费。自2007年起,Lending Club已经为上百万客户提供了贷款。2015年,平台全年新设的贷款金额就已经达到了83.6亿美元,远远超越行业第二的37亿美元,优势十分明显。
Lending Club会对提交申请的借款人进行 资格审查 ,只有符合标准才能拿到借款:(1)FICO分数(根据Experian、TransUnion、Equifax三大征信局信用报告)要在660分以上(2) 债务收入比例 要低于40%(3) 征信报告 :正在使用的循环账户不少于2户、6个月内征信查询次数小于5次、至少36个月的信用记录。借款人通过初始信用审查后,Lending Club会再次通过评分模型对申请人进行评估,两次的结果将会一起输入Model Rank中,最终得到一个基础风险子级。Lending Club会根据这个风险子级结合客户贷款的金额和贷款期限得出最终子级。最终子级共有35个级别,分为A、B、C、D、E、F、G这7 个等级,每个等级又包含1、2、3、4、5 五个子级。最终子级的不同对应了不同的贷款利率, 子级等级越高,贷款利率则越低 。
根据Lending Club的分级流程,借款申请人越符合平台资格审查的标准,最终的风险等级越高,借款所需的利率也越低。所以本文通过以下几个问题,借助SQL对Lending Club 2018年第二季度的贷款数据进行分析,探究 平台的审查条件是否合理 :
1.哪个信用等级的还款意愿最高?坏账主要集中在哪个风险等级?
2.资产负债比率越低,还款能力是否越高?
3.6个月内征信查询次数越少,还款意愿是否越高?
4.过去2年内逾期30天以上的次数越少,还款意愿是否越高?
5.还款能力是否与客户贷款目的有关?
数据集来自: Lending Club
将数据导入SQLyong后,观察数据特征:数据包括2018年Q2的贷款数据记录,共130770多行,多达145个字段,本文只选取一些 关键字段 作为分析:
loan_status :贷款状态(Fully paid-全额还款 Charged off-已注销的坏账 Current-当前 Default-违约不还 Late 31-120 days-逾期31-120天 In grace period-宽限期内 Late 16-30 days-逾期16-30天 Issued-已放款)
grade :信用评级
dti :资产负债比(负债总额/资产总额)*100%
inq_last 6mths :近6个月查询次数
delinq_2yrs :近2年逾期30天以上次数
annual_inc :年收入
emp_length :工作年限
purp.o.s e :贷款目的
1.修改表名
将表名修改为Lending Club贷款情况
2.选择子集
由于原数据字段太多,所以只挑选了以上8个关键字段作为分析
3..列名重命名
为了方便分析,把字段名重命名为中文名:
方法一:可通过SQL语句实现字段重命名
方法二:也可以直接在客户端内双击字段名进行修改,因为字段较多,本文采用这种方法修改名字
4.删除重复值
由于每行数据都是一个客户id,所以不存在重复值
5.处理缺失值
通过语句查询发现资产负债比存在空值,本文不进行删除,直接将null值作为一类。依次查询其他列没有发现其他缺失值
1.哪个信用等级的还款意愿最高?坏账主要集中在哪个风险等级?
将还款情况分为还款正常和逾期还款,还款正常包括Fully Paid 、Current、In Grace Period,逾期还款包括Late (16-30 days)、Late (31-120 days)、Charged Off、Default
输出结果:
由此可知信用等级A-C的放款人数最多,还款意愿也最强,随着信用等级变低,正常还款数量开始降低,坏账率逐渐上升。
2.资产负债比率越低,还款能力是否越高?
观察数据发现,资产负债比的区间为【0,999】,按照步长为10分为[0,10)、[10,20)、[20,30)、[30,40)、(≥40)五个区间,另外加上null值,共6个区间。
输出结果:
由图可知资产负债比与还款意愿总体呈现反比趋势。客户的资产负债比越低,还款意愿越强,在20%-30%区间内,还款占比最高,之后逐渐开始下降,逾期比例上升,还款能力降低。资产负债比为空值的客户逾期还款率高达1.23%,需要对未填写资产负债比的客户进行放款控制。
3.6个月内征信查询次数越少,还款意愿是否越高?
输出结果:
近6个月查询次数与还款意愿有一定的联系,普遍来说查询次数越高,逾期还款的占比越大。但是查询次数为4次时比较特殊,这一次数下的逾期还款为0,可能为该季度的特例导致。总体来看,还款意愿与查询次数还是存在反比的关系。
4.过去2年内逾期30天以上的次数越少,还款意愿是否越高?
输出结果:
由图可知当逾期次数在0-5次时,次数与逾期占比呈现正比关系,过去2年内逾期的次数越多,造成坏账的比率就越大。但当次数超过5次时,正常还款占比都远高于逾期还款占比。仔细分析逾期次数超过5次的具体数据可知,除了逾期超过7次的客户有1次逾期还款,其他次数的逾期还款人数都为0,从而使得正常还款占比反而较高。也可能是Lending Club对于逾期次数太多的客户控制了放款通过率。总体来说,当逾期次数在0-5次这个区间时,次数越小,还款意愿会越高。
5.还款能力是否与客户贷款目的有关?
输出结果:
由图可知,因为搬家、旅游、医疗等情况下,逾期还款的占比远远高于其他情况,而因为自身债务或信用卡等问题造成的逾期比例反而不高,所以对于不同的情况需要采取不同的风险监控措施。
通过本文的分析,Lending Club制定的审查条件基本合理:
1. 信用等级越高,还款比率越高 。A-C信用等级区间内的放款人数最多,正常还款的数量也最多,随着等级的降低,坏账率开始上升。证明平台的等级区间划分的基本合理。
2.整体来看,客户的 资产负债比越高,还款意愿越低 ,特别是对于 未提供资产负债比 的客户,逾期还款比例最大,所以需要 加强对这一部分客户的监管 ,督促客户尽快提供相关信息,降低未来的贷款坏账。
3.平台对于近6个月内征信查询次数需小于5次这一规定比较合理。根据分析得知, 次数为0-4次时客户的逾期比率很低 ;当次数为5次时,逾期占比大幅升高。
4.对于客户 近2年内的逾期次数,如果次数在0-5次区间内,次数与还款意愿成反比关系 ,平台需要对次数较多的客户加强管控,避免坏账率上升。而对于 次数超过5次 的客户,根据分析可知,这一部分的客户人数本身就较少,基本上都能够做到正常还款,所以对于这一区间的客户,只要延 续以往的风控措施 即可。
5.本文还对 贷款目的 进行了分析,结果显示对于未来有 旅游、搬家或者医疗需要 的客户,平台需要多加关注,以降低未来坏账率。
请问网贷大数据怎么查谢谢!
查询网贷大数据可以通过第三方平台进行查询。网贷大数据各大平台查询方式简单多样,只要提交姓名,身份证以及手机号就可以获得一份详细的查询报告。
查询平台目前比较有名的大数据查询系统有同盾,闪电查询、云风控、大数据、网信专家等。
网信专家查询系统分为综合风险考核,大数据信用查询,运营商报告查询,银行流水,信用卡数据查询五个版块,可以在这五个版块中查询网贷黑名单、网贷申请记录、逾期记录、个人贷款记录,个人网贷记录,个人多头借贷记录,个人互联网金融P2P平台贷款记录等各种数据。
并且在查询的过程中还会对你的申贷信息以及多平台交叉验证信息中,快速识别低信用用户、借贷欺诈风险。使用到手机(型号:HLK-AL00)。
拓展资料
一、如何查询个人信用报告
1、央行查询个人征信报告
(1)一般可以去两个地方,第一个就是央行的当地的总行,直接带上自己的身份证以及自己的有效的证件,可以直接去银行总行找客服经理填写申请表后就可以办理你要查询个人征信的业务了。
(2)有的地方是央行专门有设置一个征信管理部门,带上自己得有效证件去查询也是可以的,最好是打印下来。
2、网上查询个人信用报告
如果在网上有逾期记录或者在多个平台有借贷记录,那么你的各种记录都会被大数据风控,这时你的网贷平台就会频频被拒的,甚至连你的花呗借呗也会被关闭。
二、进入网贷黑名单如何消除?
1、去网贷平台查询自己的详细借贷记录,看自己借贷的款项,以免不法分子利用自己的个人信息进行的借贷,如发现不是自己借贷的,而是他人或者不法分子盗用,应该立即报警,然后联系借贷平台说明情况。
2、查询完自己的详细借贷记录后,然后确认是自己借贷的款项,这时应该把自己拖欠的款项,全部还清然后再联系相应平台的客服,让他们平台进行消除。
3、当平台回应不能消除,那么就等还清借贷的款项后,进行自动的消除了。一般在我们个人的征信报告中只会显示最近5年的征信记录。
4、要按时还清自己的所借贷的款项,不要拖欠。
5、保持自己的良好信誉,不要被网贷拉入黑名单,避免自己在其它的信誉方面收到影响。
美国网贷平台Prosper贷款数据分析
本文主要描述了如何用Python对数据集进行评估,整理,清洗。
完成这一过程后,再通过Tableau对问题 “Prosper违约客户具有哪些特点” 进行探索,分析和可视化。
最后,用随机森林算法对2009年7月后数据进行建模分析,并对仍在进行中的贷款进行违约与否的预测。
Prosper是美国第一家P2P借贷平台。此数据集来源于Udacity上的Prosper 2005~2014年的贷款数据。本文希望能通过对已完成贷款的分析,判断出什么类型的客户更容易违约,并预测还未完成的贷款是否会违约。
原始数据集共包含81个变量,113937条数据,下面对部分重要变量进行说明,其他变量含义可参考 变量词典 。
首先加载库和数据。
然后用df.describe(),df.info()观察数据。
此次主要分析1.什么类型的借款人更容易违约。 2.预测未完成的贷款是否会发生违约。所以去掉无关列。
从2009年7月开始,Prosper调整了对客户的评估方式,此次我们只对2009-07-01后的贷款进行分析。
去掉意义重复列:
Prosper对于新客户的评分和老客户有所区别,此次仅针对新客户数据进行分析。
首先查看下,各变量数据缺失情况。
平台把借款状态分为12种:Cancelled(取消)、Chargedoff(冲销,投资人有损失)、Completed(正常完成,投资人无损失)、Current(贷款还款中)、Defaulted(坏账,投资人有损失)、FinalPaymentInProgress(最后还款中,投资人无损失)、Past Due(逾期还款,投资人无损失)。
本文依据交易是仍在进行中还是已关闭,以及已关闭交易中投资人有无损失将所有数据分成以下三组:
Current(包含Current,Past Due)、
Defaulted(包含Defaulted,Chargedoff)、
Completed(包含Completed,FinalPaymentInProgress)。
为了便于后续分析计算,再将“Completed”改为1,“Defaulted”改为0。
已完成的贷款的违约率为defaulted_ratio_finished =26.07%
此数据集有多个特征体现了贷款用户的信用情况。其中,信用等级(ProsperRating)是Prosper根据自身模型建立,是用于确定贷款利率的主要依据,而信用评分(CreditScore)则是由官方信用评级机构提供。
由图5-1可以看到,随着信用等级(ProsperRating)的不断升高,违约率呈现明显的下降趋势。
而在信用评分(CreditScore)中,低分段(640-700),违约率处于比较高的位置,且没有太大变化。大于720的部分,随着信用评分的升高,违约率明显下降。
说明整体而言,借款人的信用水平越高,违约可能性越低。
在不同年收入(IncomeRange)中,Not employed的借款人,违约率最高,随着收入增加,违约率不断降低。
在不同贷款状态下(Status),违约用户的整体月收入(MonthlyIncome)明显低于未违约用户。
根据图5-4的左图,违约用户与未违约用户的整体负债收入比差异不大。
再根据负债收入比(DebtToIncome)的四分位点,将所有数据分成数据量接近的四组。从图5-4的右图可以看到低比例(负债收入比0-0.12)与中等比例(0.12-0.19)的违约率都较低。较高比例(0.19-0.29)的违约率略高于前面二者。但高比例(大于0.29)的用户违约率显著升高。
根据银行卡额度透支率(BankcardUtilization)的四分位点,将数据分成 '未使用','较低透支(0,0.3]','中等透支(0.3,0.7]', '较高透支(0.7,1]','严重透支(1,5]'五组。
可以看到,严重透支的借款人,违约率最高。
其次是未使用的用户,这也是为什么金融机构对于“白户”会格外关注的原因。
近半年征信查询次数(InquiriesLast6Months)可以反应出借款人近期向金融机构申请借款的频繁程度,间接体现了借款人近期的资金状况。
图5-6中,绿线表示不同查询次数下的借款笔数。可以看到,绝大部分在7次以下。
而在查询次数0-7区间内,违约率随着查询次数的增加而升高。
当前逾期(CurrentDelinquencies)可以很好的反应出借款人的信用情况。
由图5-7,可以看到大部分借款人的当前逾期在2次以内。而在0-6的区间内,违约率随当前逾期数的增加而升高。
为了避免某些数量极少的分类对违约率排序的影响,首先筛选出借款笔数在30以上的分类。
由图5-8可以看到,数量最多的是1- Debt Consolidation(债务整合)。
而违约率最高的依次是15- Medical/Dental(医疗),13-Household Expenses(家庭开支),3-Business(商业),均高于30%。
根据贷款金额(LoanAmount)的四分位点,将数据分为数量接近的四组。比较有意思的是,中等借款(3100,4750)的违约率最高,而高额借款(大于8500)的违约率反而最低。
这很可能是因为能申请到高额借款的用户,各方面条件都不错,从而降低了违约率。
由图5-11可以看到,在0-30区间内,随着持续时间的增长,违约率逐渐降低,而这一区间也包含了一半左右的数据。
当持续时间继续增长,违约率看不出有明显变化规律。
在不同地区之间,违约率也存在比较明显的差异。LA,SD等城市,违约率较高。UT,CO等城市,违约率较低。
整体而言,有房产的借款人,违约率要明显低于无房产的借款人。
导入相关库。
将数据中的字符串变量,均转换为数字。
按照测试集30%,训练集70%的比例划分数据集,并使用随机森林算法,建立模型。
该模型测试集预测准确率为:accuracy=73.99%
对于随机森林算法,可以查看在这个模型中,每个特征的重要程度。
如图6-2所示,StatedMonthlyIncome和EmploymentStatusDuration两个特征最为重要。
根据此模型,对目前仍在进行中的贷款进行违约与否的预测。
仍在进行中的贷款违约率为defaulted_ratio_predict =3.64%
本文详细描述了对于Prosper贷款数据,从数据探索到建立模型,并进行预测的完整过程。
发现月收入(StatedMonthlyIncome)以及受雇佣状态持续时间(EmploymentStatusDuration)对是否会违约的影响程度最大。主要是因为这二者是体现借款人稳定性的重要因素。
而在模型建立方面,还可以调整此模型的参数,来进行改进从而提高准确率,也可以尝试使用其他算法,如逻辑回归等,建立新的模型进行比较。
网贷逾期大数据多久才会清一次?网贷大数据花了怎么修复?
网贷 逾期大数据多久才会清一次?网贷大数据花了怎么修复?
网贷逾期大数据多久才会清一次?
现在记录个人信用平台有很多,比如央行 征信 系统、网贷大数据、 支付宝 芝麻信用分等,央行征信记录这个人过往的信用记录,主要是银行的借贷服务;
支付宝芝麻信用分主要记录着支付宝履约情况;网贷大数据主要记录着个人在网络 贷款 上的情况,当网贷出现了逾期,网贷大数据会多长时间请一次呢?
网贷大数据清除时间是三个月一次,会将个人以往的不良贷款记录都自动清除,但是需要个人将所有欠款都还清。
若是还有网贷平台存在欠款的情况,大数据中的不良贷款记录会一直保存,想要清除个人不良贷款记录最好的方法就是先还款,然后等待三个月。
现在支付宝中有奋腾数据,这个里面就记录了全国98%以上的网络贷款平台数据,同时还记录着借款人的网络贷款历史情况、还款情况、逾期情况、黑名单等,进入后即可查询。
网贷大数据花了怎么修复?
当在众多网贷平台贷款,多次查询网贷大数据的情况下就可能造成大数据变花,从而会影响到个人网络借款,网贷大数据变化要怎么修复呢?
1、还清借款
网络贷款出现了逾期会知道导致大数据不良记录,只有还清了借款平台才不会继续上传个人的逾期不良信息,还清后三个月即可修复网贷大数据。
2、不再网贷
每次注册网络贷款平台,申请网络贷款后,借款平台都会查询网贷大数据,申请的平台越多,大数据显示的就越多,因此会被平台认为你非常缺钱,还款借款后不再使用网贷。
3、减少网贷大数据查询次数
每次查询大数据都会有记录,查询的越多对自己越不利。
网络贷款确实能让我们享受到快速贷款的便利,但是也会存在高额利息,逾期还会影响到自己信用。
对于贷款平台数据和贷款平台数据出售的总结分享本篇到此就结束了,不知你从中学到你需要的知识点没 ?如果还想了解更多这方面的内容,记得收藏关注本站后续更新。
还没有评论,来说两句吧...