Lending Club贷款数据分析——数据分析(一)
接上篇
针对 数据集的各个方面进行简单数据分析。
主要有
先说结论:
将逾期15天以上的贷款视为坏账,简化贷款质量
可以看出,坏账仅有不到8%,但是实际上的金额也是比较惊人的。
2011年后,贷款总额每年都在飙升
可以看出2012年后Lending Club飞速发展,客户飞速增加,虽然有波动,但总体再增加
各行各业的人都有,居然是老师最多,管理者次之。
工作年限越长越容易贷款吗,看来是了
这里将年收入大致分为三个区间
20000以下的视为低年收入,20000-60000视为中等,高于60000的就是高收入人群
大部分客户年收入都在20000以上
中等人群坏账数量最多
可以看出人们贷款主要是为了债务整合和信用卡偿还,债务整合就是借信用卡还其他信用卡,和信用卡偿还貌似没区别
一半客户按揭,四成客户租房。有房子的不足10%
看来有不良记录的人很难申请贷款
LC在2012-2015飞速发展,能发的钱越来越多
信用等级越低,贷款利率越高
DTI:每月还款占月收入的比例
大部分的贷款客户的DTI在35%以下,说明还款压力不是很大
一小部分客户DIT达到45%,存在风险
后续特征工程中将以35%为分界 分为两类
在右侧看不见的地方还存在极小一部分,,基本属于风险很大的贷款
LC平台以短期贷款为主,但长期贷款比例也不低
Lending Club贷款数据分析——数据清洗
数据集包含了2007-2015年Lending Club平台的贷款数据,所以数据量非常庞大
大概有90W行*74列
本来想用EXCEL进行分析,但是看到连打开都需要1分钟之后我放弃了这样的想法
本次主要使用pandas进行数据清理
查看数据集原始大小:
loan_status实际就也是我们的建模目标,据此查看贷款情况:
明显可以看到正负样本数量差距悬殊,估计 9:1,对于后面建模而言需要考虑这个问题
查看处理后的数据集大小
看起来效果还可以
可以看到正负样本差距依然悬殊
数据清理到这里就结束了
Lending Club贷款数据分析
背景
Lending club之所以一度成为全球p2p行业老大的地位得益于其风控系统,不过中美信用体系,金融行业发展程度相差很大,lending club在交易中只充当交易平台,风险由投资者自己承担,lending club 利用其风控系统一度将坏账控制在很小的比例,我们当然好奇这套模式具体是怎样的?
* 如下图所示:lending club的风控体系分为三步:
* 初步筛选(决定是否准贷)
* 进一步评估
* 深度评估(决定利率)
以上我们看到初步准贷的条件有4点,第一点借款人的信用评分不少于660分,这个要求就很不低了。看来lendingclub的准贷门槛很高,不是什么人都能得到贷款,这也是对在lendingclub上投资客户的负责。
第二步进一步评估过程会整合借款人的条件,将他们分为从A1到E5的25个等级
1.了解lending club的2007-2015年经营信息 ,如:每年交易数变化、每年放款金额变化、每年交易客户数变化,每年人均贷款金额变化。
2.总坏账数,每年的坏账率怎么样?
3.客户贷款需求多集中在什么金额范围内?都选择多久还款期限?
4.利率在什么范围内?
5.Lenging club信用等级风控模型是否管用?坏账出现出现在哪个信用等级上了?
6.工作多少年对于贷款发放来说是好的,什么是不好的?
7.坏账与年收入是否有关系?
8.什么贷款目的是好的,什么贷款目的是坏的?
主要包括 6大块数据信息
* 基本贷款信息包括,贷款ID、会员ID、贷款金额、贷款期限,分期付款金额,贷款日期,贷款状态;
* 授信信息包括信用等级,利率;
* 个人政务信息包括房屋拥有情况,工作,工作年数,年收入,资产收入比值*100;
* 其他信息包括贷款目的;
* 地理信息:邮编,州;
* 公共记录信息包括过去两年内信用档案中逾期30天以上的次数;
* 过去6个月的查询数目(不包括房屋和汽车按揭);自借款人最后一次拖欠债务以来的月数等等;
2007-2015年,lending club上交易的客户数直线攀升,由于贷款期限3年或者5年,没有重复贷款的客户,客户数量的攀升给lending club平台带来不断增长的交易量,这应该是平台信誉积累的结果。
2007-2015年坏账率控制在7.60%的范围,这应该说非常不错,但是我们要注意的是,平台这份数据集还有60万个订单处于‘current’状态,当中一定会出现坏账,我们不能知道到底会最终有多少坏账出现。
客户一般能从lending club贷到不超过3.5万美元,选择三年还的人比较多。
lending club贷款利率平均值是在13.2%,还是比较低的。总体范围在5.3%--29.0%之间。
1.很有意思的是坏账并没有随着评分等级而正相关,‘G’的贷款中坏账反而最少,要知道他们的利率是最高的!有可能是因为lending club的风控措施对‘G’的客户拒贷了,控制了这部分风险。
2.‘A’的坏账少得益于信用好,这个可以理解。这当中恐怕最不能理解的就是‘C’的坏账最多。中间等级的坏账都不怎么好。看来对于‘C’‘D’两级的风控评分政策得要重新调整下比较好了。
坏账竟然很多出现在工作10年以上的客户身上,不过我们看到对工作10年以上的客户发放基数是最大的。对工作10年以上客户的风控审查得更加严格比较好,推测可能是工作10年以上的用户负债压力的大的缘故。
美国网贷平台Prosper贷款数据分析
本文主要描述了如何用Python对数据集进行评估,整理,清洗。
完成这一过程后,再通过Tableau对问题 “Prosper违约客户具有哪些特点” 进行探索,分析和可视化。
最后,用随机森林算法对2009年7月后数据进行建模分析,并对仍在进行中的贷款进行违约与否的预测。
Prosper是美国第一家P2P借贷平台。此数据集来源于Udacity上的Prosper 2005~2014年的贷款数据。本文希望能通过对已完成贷款的分析,判断出什么类型的客户更容易违约,并预测还未完成的贷款是否会违约。
原始数据集共包含81个变量,113937条数据,下面对部分重要变量进行说明,其他变量含义可参考 变量词典 。
首先加载库和数据。
然后用df.describe(),df.info()观察数据。
此次主要分析1.什么类型的借款人更容易违约。 2.预测未完成的贷款是否会发生违约。所以去掉无关列。
从2009年7月开始,Prosper调整了对客户的评估方式,此次我们只对2009-07-01后的贷款进行分析。
去掉意义重复列:
Prosper对于新客户的评分和老客户有所区别,此次仅针对新客户数据进行分析。
首先查看下,各变量数据缺失情况。
平台把借款状态分为12种:Cancelled(取消)、Chargedoff(冲销,投资人有损失)、Completed(正常完成,投资人无损失)、Current(贷款还款中)、Defaulted(坏账,投资人有损失)、FinalPaymentInProgress(最后还款中,投资人无损失)、Past Due(逾期还款,投资人无损失)。
本文依据交易是仍在进行中还是已关闭,以及已关闭交易中投资人有无损失将所有数据分成以下三组:
Current(包含Current,Past Due)、
Defaulted(包含Defaulted,Chargedoff)、
Completed(包含Completed,FinalPaymentInProgress)。
为了便于后续分析计算,再将“Completed”改为1,“Defaulted”改为0。
已完成的贷款的违约率为defaulted_ratio_finished =26.07%
此数据集有多个特征体现了贷款用户的信用情况。其中,信用等级(ProsperRating)是Prosper根据自身模型建立,是用于确定贷款利率的主要依据,而信用评分(CreditScore)则是由官方信用评级机构提供。
由图5-1可以看到,随着信用等级(ProsperRating)的不断升高,违约率呈现明显的下降趋势。
而在信用评分(CreditScore)中,低分段(640-700),违约率处于比较高的位置,且没有太大变化。大于720的部分,随着信用评分的升高,违约率明显下降。
说明整体而言,借款人的信用水平越高,违约可能性越低。
在不同年收入(IncomeRange)中,Not employed的借款人,违约率最高,随着收入增加,违约率不断降低。
在不同贷款状态下(Status),违约用户的整体月收入(MonthlyIncome)明显低于未违约用户。
根据图5-4的左图,违约用户与未违约用户的整体负债收入比差异不大。
再根据负债收入比(DebtToIncome)的四分位点,将所有数据分成数据量接近的四组。从图5-4的右图可以看到低比例(负债收入比0-0.12)与中等比例(0.12-0.19)的违约率都较低。较高比例(0.19-0.29)的违约率略高于前面二者。但高比例(大于0.29)的用户违约率显著升高。
根据银行卡额度透支率(BankcardUtilization)的四分位点,将数据分成 '未使用','较低透支(0,0.3]','中等透支(0.3,0.7]', '较高透支(0.7,1]','严重透支(1,5]'五组。
可以看到,严重透支的借款人,违约率最高。
其次是未使用的用户,这也是为什么金融机构对于“白户”会格外关注的原因。
近半年征信查询次数(InquiriesLast6Months)可以反应出借款人近期向金融机构申请借款的频繁程度,间接体现了借款人近期的资金状况。
图5-6中,绿线表示不同查询次数下的借款笔数。可以看到,绝大部分在7次以下。
而在查询次数0-7区间内,违约率随着查询次数的增加而升高。
当前逾期(CurrentDelinquencies)可以很好的反应出借款人的信用情况。
由图5-7,可以看到大部分借款人的当前逾期在2次以内。而在0-6的区间内,违约率随当前逾期数的增加而升高。
为了避免某些数量极少的分类对违约率排序的影响,首先筛选出借款笔数在30以上的分类。
由图5-8可以看到,数量最多的是1- Debt Consolidation(债务整合)。
而违约率最高的依次是15- Medical/Dental(医疗),13-Household Expenses(家庭开支),3-Business(商业),均高于30%。
根据贷款金额(LoanAmount)的四分位点,将数据分为数量接近的四组。比较有意思的是,中等借款(3100,4750)的违约率最高,而高额借款(大于8500)的违约率反而最低。
这很可能是因为能申请到高额借款的用户,各方面条件都不错,从而降低了违约率。
由图5-11可以看到,在0-30区间内,随着持续时间的增长,违约率逐渐降低,而这一区间也包含了一半左右的数据。
当持续时间继续增长,违约率看不出有明显变化规律。
在不同地区之间,违约率也存在比较明显的差异。LA,SD等城市,违约率较高。UT,CO等城市,违约率较低。
整体而言,有房产的借款人,违约率要明显低于无房产的借款人。
导入相关库。
将数据中的字符串变量,均转换为数字。
按照测试集30%,训练集70%的比例划分数据集,并使用随机森林算法,建立模型。
该模型测试集预测准确率为:accuracy=73.99%
对于随机森林算法,可以查看在这个模型中,每个特征的重要程度。
如图6-2所示,StatedMonthlyIncome和EmploymentStatusDuration两个特征最为重要。
根据此模型,对目前仍在进行中的贷款进行违约与否的预测。
仍在进行中的贷款违约率为defaulted_ratio_predict =3.64%
本文详细描述了对于Prosper贷款数据,从数据探索到建立模型,并进行预测的完整过程。
发现月收入(StatedMonthlyIncome)以及受雇佣状态持续时间(EmploymentStatusDuration)对是否会违约的影响程度最大。主要是因为这二者是体现借款人稳定性的重要因素。
而在模型建立方面,还可以调整此模型的参数,来进行改进从而提高准确率,也可以尝试使用其他算法,如逻辑回归等,建立新的模型进行比较。
运营数据分析主要分析哪些方面?
1、引流
通过分析PV、UV、访问次数、平均访问深度、跳出率等数据来衡量流量质量优劣。
目的是保证流量的稳定性,并通过调整,尝试提高流量。
2、转化
完成引流工作后,下一步需要考虑转化,这中间需要经历浏览页面—注册成为用户—登陆—添加购物车—下单—付款—完成交易。
每一个环节中都会有用户流失,提高各个环节的转化率是这一块工作的最核心——转化率的提升,意味着更低的成本,更高的利润。
3、留存
通过各个渠道或者活动把用户吸引过来,但是过一段时间就会有用户流失走掉,当然也会有一部分用户留下来,留下来这部分用户就叫做留存用户。
4、复购
有调查数据显示:一个满意的用户会带来8笔潜在生意,不满意的用户可能会影响25个人的购买意愿,可见回头客多么重要。
复购率可以分为“用户复购率”和“订单复购率”,此外,“用户回购率”意义与复购率相似,也在此范围内。
全国共有小额贷款公司6054家,贷款余额9076亿元,数据说明了什么?
全国共有小额贷款公司6054家,贷款余额9076亿元,数据说明了什么首先是说明了我们国内的人民群众对于资金的需求程度越来越大,其次就是部分的人群没有办法在银行获得贷款选择小额贷款来满足自身的发展需求,再者就是小额贷款公司刺激了经济市场的活跃度,另外就是小额贷款公司自身的运营能力正在提升所以用户群体越来越多,还有就是经济市场被充分的盘活起来并且规模越来越大,还有就是说明了我们国家对于小额贷款公司在市场上面的存在有着一定的政策支持,然后就是市场主体的数量不断增多。需要从以下六方面来阐述分析全国共有小额贷款公司6054家,贷款余额9076亿元,数据说明了什么。
一、说明了我们国内的人民群众对于资金的需求程度越来越大
首先就是说明了我们国内的人民群众对于资金的需求程度越来越大 ,对于我们国内的人民群众而言对资金的需求程度如果越大那么对于经济市场的作用也是越大的,可以用于专项性的投资。
二、部分的人群没有办法在银行获得贷款选择小额贷款来满足自身的发展需求
其次就是部分的人群没有办法在银行获得贷款选择小额贷款来满足自身的发展需求 ,对于部分的人群而言他们没有办法在银行获得贷款所以才会选择小额贷款来更好的迎合自身的需求。
三、小额贷款公司刺激了经济市场的活跃度
再者就是小额贷款公司刺激了经济市场的活跃度 ,对于小额贷款公司而言他们之所以为了刺激经济市场的活跃度主要就是通过各种渠道来释放资金。
四、小额贷款公司自身的运营能力正在提升所以用户群体越来越多
另外就是小额贷款公司自身的运营能力正在提升所以用户群体越来越多 ,对于小额贷款公司而言他们自身的运营能力如果可以得到提升那么用户数量也会积累的越来越多。
五、经济市场被充分的盘活起来并且规模越来越大
还有就是经济市场被充分的盘活起来并且规模越来越大 ,对于经济市场而言如果充分地被盘活起来之后可以更好的扩大其规模有利于建设更加强大的经济市场。
六、说明了我们国家对于小额贷款公司在市场上面的存在有着一定的政策支持
还有就是说明了我们国家对于小额贷款公司在市场上面的存在有着一定的政策支持 ,这样子可以更好的让市场主体获得充足的资金。
七、市场主体的数量不断增多
最后就是市场主体的数量不断增多 ,对于市场主体而言之所以应该增多主要就是受到对应的一些经济市场的刺激,以及很多人对于创业梦想的执着。
小额贷款公司应该做到的注意事项:
应该规范自身的运营规则。
对于贷款软件运营数据分析和贷款公司数据分析师是干什么的的总结分享本篇到此就结束了,不知你从中学到你需要的知识点没 ?如果还想了解更多这方面的内容,记得收藏关注本站后续更新。
还没有评论,来说两句吧...