贷款用户数据建模怎么做？

信贷类金融产品贷款流程及相关产品介绍

金融信贷领域的产品，除了理财稍微提及下，其他多为P2P信贷、小贷、消费金融、汽车金融、银行信贷等。在贷款申请这个步骤开始前，一般逃不过营销获客、注册登录、实名认证及银行卡绑卡行为。

说完基本信贷流程，下文说说各流程的详细情况及对应风控产品。

一是通过识别用户借贷意愿进行精准营销，二是反欺诈方面，防止薅羊毛、广告作弊等欺诈行为。

对应产品：

1.作弊设备识别：通过设备指纹技术，可以获取操作设备的多重属性，从而分析该设备参与营销活动的频率、关联账号等情况，有效识别作弊设备。

2.代理IP分析：通过代理检测技术，可以及时发现通过使用代理技术隐藏真实IP地址的行为，准确识别当前用户是否使用代理访问网站，再结合机构本身的风控模型及用户信息，有效识别作弊用户。

3.欺诈用户行为：通过存量历史欺诈用户数据建模分析，准确分析用户行为特征，有效识别欺诈作弊用户。

4.精准营销：重点在于用户基数及标签维度是否丰富，这样有利于细分行业定位客群；获客引流的方式是将定位好的用户数据通过选择好的渠道媒介触达用户，一般有短信、电呼、网络定制广告、移动广告等方式。但由于政策原因导致短信及电呼业务紧缩，效果原因+成本原因短信和电呼在做精准营销的性价比逐渐减弱。

主要防控点也是在反欺诈方面，该阶段可能出现的风险如下：

进行借贷同行业身份核验。在反欺诈识别过程中，无风险用户来到身份核验环节，这里可以通过身份证号、手机号、姓名等信息确认身份。

1.身份证号认证：公民身份信息，既身份证号码及姓名，另加有条纹返照，这个查询接口一般来自于公安一所、三所及公安认证中心，现在在市面上要找到实时口真不容易，多是存量接口。原因就是这些公安部门一般不会外放，也没正式的代理政策。

2.本人申请校验：主要通过OCR+活体检测来完成。OCR的目的主要是获得身份证上可信照片，活体检测是获得你现场照片，然后通过对比可信照片和现场照片，来判断操作的是不是本人。可信照片除了可通过活体检测获得，也可以通过调用公安网网纹照，但是成本较高。

3.运营商验证：运营商三要素校验，通过提供姓名、身份证号、手机号，核验姓名身份证号与该手机号开户时实名登记的姓名身份证号是否一致，来判断是否为本人的手机号。这个校验互金产品使用得比较少。

银行卡验证：银行卡验证根据不同行业需求及产品设计，一般分为银行卡2要素（姓名、银行卡号）、3要素（姓名、银行卡号、手机号）、4要素（姓名、身份证号、银行卡号、手机号）及银行卡6要素（一般指贷记卡，姓名、身份证号、银行卡号、手机号、有效期及CVN2码），现在慢慢开始普及的还有银行卡3类账户识别验证。接口主要来源与各大银行总分支行，比较全的也就是各地银联，但多部分知名度较高的都是些第三方支付渠道。银行卡校验时，也是要实名认证校验的。所以不少互金类产品在产品设计时，直接通过该环节来做实名校验，节省姓名+身份证校验的费用。

1.授权信息获取：针对身份核验通过的用户，进行有感知或无感知的必要信息获取，为后续模型评分准备好数据。无感知获取的包括多头借贷数据、消费金融画像数据、手机号状态和时长数据等；有感知（需要用户提供相关账户密码）获取的数据有：运营商报告、社保公积金、职业信息、学历信息、央行征信等。

2.用户过滤：在获得用户提交信息、系统抓取信息、第三方数据后，基于这些数据跑各类风控规则，过滤掉不满足规则的用户。

风控规则主要包括进件规则、反欺诈规则、严拒规则、可变规则、评分规则等。

3.用户信用评估：通过过滤规则的客户，进入信用评估及授信环节，这个环节通常会有个打分的环节，也就是信用分，也称个人综合信用评分，是指通过使用科学严谨的分析方法，综合考察影响个人及其家庭的内在和外在的主客观环境，并对其履行各种经济承诺的能力进行全面的判断和评估。

4.授信核额：在信用评估后，根据用户信用评估信息，进行风险定价，包括给额度、定费率、定期限。

1.贷前反欺诈：反欺诈主要针对2方面：

整个反欺诈流程大致如下：

5.信用评分卡：构建信用评分卡模型，可以精准评估借款人还款能力和还款意愿。信用评分卡包括：

贷中管理是从贷款发放之日起指贷款本息收回之时止的贷款管理。

贷中风控主要做的是监控和风险预警，强调已贷用户的资金使用用途是否正常，资质是否有变化，收入情况是否稳定等各种会影响客服后期正常还款的各种行为变化。

贷中监控属于借贷环节最不引人瞩目的环节，有“重贷轻管”的情况。除少部分掌握用户出行数据、支付数据、实时信用数据的机构可以做得到，大部分信贷机构都无法做贷中监控，只能与这些少部分机构合作，但监控成本就自然上升。

如果说贷前的风控做的好不好决定了企业是否能够存活，贷中的管理决策则决定企业的可持续性发展。

贷中监控主要针对这2个维度一般体现在还款行为、诉讼信息、特殊名单变化、多次申请记录变化、联系状态变更等维度，一般监控的维度有发生变更给的，需要及时发现并做风险预警。

这些维度变化反应了客户的还款能力及还款意愿。

1.行为评分：利用贷款客户的历史数据和行为特征等制定贷中行为评分模型，对客户划分风险等级，实行不同的贷中风险管控措施；

2.客户号码状态核查：判断贷中存量客户号码状态，给出相应的状态标签，及时发现风险；

3.异常行为预警：多头借贷行为监控、还款能足指标异常预警及还款意愿交叉识别。

贷后包括客户正常还款的复贷邀请及催收两部分。

复贷邀请主要通过历史行为找出按时还款的客户，并主动询问是否需要复贷。

催收，主要针对有逾期行为征兆或已经发生逾期行为的客户，进行催收联系，一般有催收行为的用户都容易失联，因此需要进行失联修复，通过数据交叉匹配手段修复用户实名下的其他联系方式，然后是进行催收方案计划，制定自动回收策略、逾期损失模型及催收渠道选择。为了提高效率，可设置智能客服进行前期催收，后期针对逾期严重的可以选择委外催收。

1.失联修复：贷后需要催收时，联系不到目标用户，可以失联修复，获取更多的触达方式，触达用户提高催收成功率。

2.逾期客户画像：用于清晰催收对象情况。多维度画像数据，精确勾勒逾期客户还款能力与意愿的相关情况并精准量化。

3.催收评分：按分评估对象催收难易度。融合了委案金额、账龄、地域等多维度信息的建模评分系统，兼顾逾期客户的还款能力及意愿，对债务人的还款可能性进行综合评估。通过贷后行为评分模型准确地预测的还款概率，根据还款可能性对客户进行分层，辅助贷后策略；

4.分单策略：不同能力催收员负责不同难易程度的催收对象。根据催收评分，结合系统总催收人员的业务能力指标来制定分单策略，以对案件进行合理化分配，提升催收效果。

5.轮循拨号：友好自动拨号，打到你接。对于高频、简单的催收案件，采用试触式轮循拨打，减少人工操作，缩短拨打间隔，有效提升催收效率。

6.正常还款提醒：对于即将到期的还款，一般会通过短信、电话多次进行还款提醒。比如，提前5天、2天、1天、0天进行短信提醒，提前2天、1天、0天进行电话提醒。这是很普通但又非常有效的还款策略。同时，还款一般支持第三方代扣，比如，用户授权的第三方支付平台会在还款日从指定银行卡中划扣本息，避免用户忘记还款。

7.重新评估授信：不管是正常还款、逾期还款，还是逾期未还款，一个周期结束后，需要重新给用户进行信用评估，并重新给出信审额度和利率，方便用户进行复贷或列入黑名单。

8.老客户激活：针对信誉良好的用户进行激活营销，提高复贷率。

参考文章：

《百家风控公司揭秘系列5｜“网红”同盾科技公司及产品调研报告》

《百家风控公司揭秘系列6｜百融金服公司及产品调研报告》

《消费金融大数据风控业务解析》

《“现金贷”产品经理，也需懂点风控知识》

《同盾交易解决反欺诈方案PPT》

美国网贷平台Prosper贷款数据分析

本文主要描述了如何用Python对数据集进行评估，整理，清洗。

完成这一过程后，再通过Tableau对问题 “Prosper违约客户具有哪些特点” 进行探索，分析和可视化。

最后，用随机森林算法对2009年7月后数据进行建模分析，并对仍在进行中的贷款进行违约与否的预测。

Prosper是美国第一家P2P借贷平台。此数据集来源于Udacity上的Prosper 2005~2014年的贷款数据。本文希望能通过对已完成贷款的分析，判断出什么类型的客户更容易违约，并预测还未完成的贷款是否会违约。

原始数据集共包含81个变量，113937条数据，下面对部分重要变量进行说明，其他变量含义可参考变量词典。

首先加载库和数据。

然后用df.describe()，df.info()观察数据。

此次主要分析1.什么类型的借款人更容易违约。 2.预测未完成的贷款是否会发生违约。所以去掉无关列。

从2009年7月开始，Prosper调整了对客户的评估方式，此次我们只对2009-07-01后的贷款进行分析。

去掉意义重复列：

Prosper对于新客户的评分和老客户有所区别，此次仅针对新客户数据进行分析。

首先查看下，各变量数据缺失情况。

平台把借款状态分为12种:Cancelled(取消)、Chargedoff(冲销，投资人有损失)、Completed(正常完成，投资人无损失)、Current(贷款还款中)、Defaulted(坏账，投资人有损失)、FinalPaymentInProgress(最后还款中，投资人无损失)、Past Due(逾期还款，投资人无损失)。

本文依据交易是仍在进行中还是已关闭,以及已关闭交易中投资人有无损失将所有数据分成以下三组：

Current(包含Current,Past Due)、

Defaulted(包含Defaulted,Chargedoff)、

Completed(包含Completed,FinalPaymentInProgress)。

为了便于后续分析计算，再将“Completed”改为1，“Defaulted”改为0。

已完成的贷款的违约率为defaulted_ratio_finished =26.07%

此数据集有多个特征体现了贷款用户的信用情况。其中，信用等级(ProsperRating)是Prosper根据自身模型建立，是用于确定贷款利率的主要依据，而信用评分(CreditScore)则是由官方信用评级机构提供。

由图5-1可以看到，随着信用等级(ProsperRating)的不断升高，违约率呈现明显的下降趋势。

而在信用评分（CreditScore）中，低分段(640-700)，违约率处于比较高的位置，且没有太大变化。大于720的部分，随着信用评分的升高，违约率明显下降。

说明整体而言，借款人的信用水平越高，违约可能性越低。

在不同年收入(IncomeRange)中，Not employed的借款人，违约率最高，随着收入增加，违约率不断降低。

在不同贷款状态下(Status)，违约用户的整体月收入(MonthlyIncome)明显低于未违约用户。

根据图5-4的左图，违约用户与未违约用户的整体负债收入比差异不大。

再根据负债收入比（DebtToIncome）的四分位点，将所有数据分成数据量接近的四组。从图5-4的右图可以看到低比例（负债收入比0-0.12）与中等比例（0.12-0.19）的违约率都较低。较高比例（0.19-0.29）的违约率略高于前面二者。但高比例（大于0.29）的用户违约率显著升高。

根据银行卡额度透支率(BankcardUtilization)的四分位点，将数据分成 '未使用'，'较低透支(0,0.3]'，'中等透支(0.3,0.7]'， '较高透支(0.7,1]'，'严重透支（1,5]'五组。

可以看到，严重透支的借款人，违约率最高。

其次是未使用的用户，这也是为什么金融机构对于“白户”会格外关注的原因。

近半年征信查询次数（InquiriesLast6Months）可以反应出借款人近期向金融机构申请借款的频繁程度，间接体现了借款人近期的资金状况。

图5-6中，绿线表示不同查询次数下的借款笔数。可以看到，绝大部分在7次以下。

而在查询次数0-7区间内，违约率随着查询次数的增加而升高。

当前逾期(CurrentDelinquencies)可以很好的反应出借款人的信用情况。

由图5-7，可以看到大部分借款人的当前逾期在2次以内。而在0-6的区间内，违约率随当前逾期数的增加而升高。

为了避免某些数量极少的分类对违约率排序的影响，首先筛选出借款笔数在30以上的分类。

由图5-8可以看到，数量最多的是1- Debt Consolidation（债务整合）。

而违约率最高的依次是15- Medical/Dental(医疗),13-Household Expenses(家庭开支),3-Business（商业），均高于30%。

根据贷款金额（LoanAmount）的四分位点，将数据分为数量接近的四组。比较有意思的是，中等借款(3100,4750)的违约率最高，而高额借款（大于8500）的违约率反而最低。

这很可能是因为能申请到高额借款的用户，各方面条件都不错，从而降低了违约率。

由图5-11可以看到，在0-30区间内，随着持续时间的增长，违约率逐渐降低，而这一区间也包含了一半左右的数据。

当持续时间继续增长，违约率看不出有明显变化规律。

在不同地区之间，违约率也存在比较明显的差异。LA,SD等城市，违约率较高。UT,CO等城市，违约率较低。

整体而言，有房产的借款人，违约率要明显低于无房产的借款人。

导入相关库。

将数据中的字符串变量，均转换为数字。

按照测试集30%，训练集70%的比例划分数据集，并使用随机森林算法，建立模型。

该模型测试集预测准确率为：accuracy=73.99%

对于随机森林算法，可以查看在这个模型中，每个特征的重要程度。

如图6-2所示，StatedMonthlyIncome和EmploymentStatusDuration两个特征最为重要。

根据此模型，对目前仍在进行中的贷款进行违约与否的预测。

仍在进行中的贷款违约率为defaulted_ratio_predict =3.64%

本文详细描述了对于Prosper贷款数据，从数据探索到建立模型，并进行预测的完整过程。

发现月收入（StatedMonthlyIncome）以及受雇佣状态持续时间(EmploymentStatusDuration)对是否会违约的影响程度最大。主要是因为这二者是体现借款人稳定性的重要因素。

而在模型建立方面，还可以调整此模型的参数，来进行改进从而提高准确率，也可以尝试使用其他算法，如逻辑回归等，建立新的模型进行比较。

请问汽车贷款金融数据建模的专业术语有什么？

渗透率，批复率，有效率

这是大家日常接触非常多的词语，他们有很大的关联性，所以也是最容易混淆的。

汽车金融渗透率（英文 PenetrationRate）是最常听到的一个名词，它泛指通过贷款、融资等金融方式购买的车辆数量占总销售车辆数量的比例。

举个例子，某4S店当月销售汽车100台，其中贷款购车20台，则渗透率为20。汽车消费金融渗透率就是衡量一个4S店汽车金融业务做得好与不好的最直观的指标，也是衡量整体汽车行业发展成熟度的重要参考。

银行数据仓库体系实践（18）--数据应用之信用风险建模

信用风险

银行的经营风险的机构，那在第15节也提到了巴塞尔新资本协议对于银行风险的计量和监管要求，其中信用风险是银行经营的主要风险之一，它的管理好坏直接影响到银行的经营利润和稳定经营。信用风险是指交易对手未能履行约定契约中的义务而给银行造成经济损失的风险。典型的表现形式包括借款人发生违约或信用等级下降。借款人因各种原因未能及时、足额偿还债务/银行贷款、未能履行合同义务而发生违约时，债权人或银行必将因为未能得到预期的收益而承担财务上的损失。

那如何来表示某个交易对手的信用情况呢，一般使用信用等级或信用评分来来表示，等级越低或评分越低，发生违约的概率会增加。这个信用评分主要应用在客户的贷前和贷后管理中，贷前是指客户贷款申请阶段，银行受理客户贷款申请时会根据客户提交的信息、人行征信、其它数据源按一定的规则计算出一个违约概率和风险评分或信用等级。再根据这个评分或评级来确定客户的授信额度和利率。计算出的评分或评级越高，违约概率越低，比如在进行个人贷前评分时主要关注以下5方面：

（1）People：贷款人状况，包括历史还款表现、当前负债情况、资金饥渴度等；

（2）Payment：还款来源，如基本收入、资产水平、月收支负债比、无担保总负债等；

（3）Purp.o.s e：资金用途，如消费、买房，需要规避贷款资金用于投资或投机性质较高领域，如股票和数字货币；

（4）Protection：债权确保，主要是看是否有抵押物或担保，需要看抵押物用途、质量、价格等关键要素；

（5）Perspective：借款户展望，从地域、行业、人生阶段等考察稳定性及潜力；

贷后是指客户借款后银行持续跟进客户的信用情况，如果发现信用评分降低或者某些指标达到风险预警指标的阈值，说明风险升高，则会进行冻结额度甚至提前进行贷款收回。特别是对于逾期客户。

风险建模步骤

在进行信用评估时如何选择客户属性、如何确定评分或评级规则呢？这就需要进行风险建模，通过分析历史数据来确定哪些特征或指标对客户的违约相关性大，可以了解客户的还款能力以及还款意愿。并通过一定方法来建立评分和评级的规则。那风险建模主要分为以下步骤：

（1）业务理解：主要评估当前现状、确定业务目标，选择建模方法，比如需要进行XX贷款产品的贷前评分模型并确定准入规则，建模方式比如为评分卡，评分应用为基于评分确定贷款准入规则以及额度和利率规则，同时需要确定分析数据的好客户和坏客户标准，如逾期90天以上为坏客户；

（2）数据理解：首先需要准备建模的样本数据，如抽取近2年的获得类似产品的客户相关信息以及根据好客户和坏客户标准确定的结果。并针对业务数据进行业务含义理解、对数据进行收集、探索，了解每个变量的数据质量、缺失情况，数据分布等。比如对于客户在人行的征信数据、客户在银行的存款、理财等信息、以及客户申请填写的家庭、房产信息、外部获得的客户教育、司法等相关信息进行业务理解和数据分布、质量的探索，对缺失值比例过大的变量或准确性不高的变量进行剔除，同时也要确定对于样本数据中哪些数据进行建模，哪些数据进行验证。

（3）数据准备：主要对数据进行预处理和指标加工，指标加工指基于基础数据进行指标加工，如最近1个月的征信查询次数，最近1年的逾期次数等，数据预处理主要工作包括对每一个变量进行数据清洗、缺失值处理、异常值处理、数据标准化等，主要目的是将获取的原始数据转变成可用于建模的结构化数据。

比如对于连续变量，就是要寻找合适的切割点把变量分为几个区间段以使其具有最强的预测能力，也称为“分箱”。例如客户年龄就是连续变量，在这一步就是要研究分成几组、每组切割点在哪里预测能力是最强的。分箱的方法有等宽、等频、聚类（k-means）、卡方分箱法、单变量决策树算法（ID3、C4.5、CART）、IV最大化分箱法、best-ks分箱法等。如果是离散变量，每个变量值都有一定的预测能力，但是考虑到可能几个变量值有相近的预测能力，因此也需要进行分组。

通过对变量的分割、分组和合并转换，分析每个变量对于结果的相关性，剔除掉预测能力较弱的变量，筛选出符合实际业务需求、具有较强预测能力的变量。检测变量预测能力的方法有：WOE(weight of Evidence) 、IV(informationvalue)等。

（4）分析建模：即对于筛选出来的变量以及完成好坏定义的样本结果。放入模型进行拟合。如评分卡一般采用常见的逻辑回归的模型，PYTHON、SAS、R都有相关的函数实现模型拟合。以下是生成的评分卡的例子。

（5）评估及报告：即通过验证样本对模型的预测进行校验。评估模型的准确性和稳健性，并得出分析报告。常用的方法有ROC曲线、lift提升指数、KS(Kolmogorov-Smirnov)曲线、GINI系数等。

（6）应用：对模型进行实际部署和应用，如基于评分进行客户准入和产生额度，并在贷款系统进行模型部署，自动对申请客户进行评分。

（7）监测：建立多种报表对模型的有效性、稳定性进行监测，如稳定性监控报表来比较新申请客户与开发样本客户的分值分布，不良贷款分析报表来评估不同分数段的不良贷款，并且与开发时的预测进行比较，监控客户信贷质量。随着时间的推移和环境变化，评分模型的预测力会减弱，所以需要持续监控并进行适当调整或重建。

在信用风险建模中，目前评分卡建模还是主要的方式，除了申请评分（A卡（Application score card））还有B卡（Behavior score card）行为评分卡、C卡（Collection score card）催收评分卡。B卡主要进行客户贷后管理，如何进行风险预警，C卡进行催收管理，确定如何催收以及催收方式和时间点。信用风险模型中还有一个是反欺诈模型，它主要是识别假冒身份、虚假信息、批量薅羊毛等欺诈行为。随着机器学习和大数据的发展，其它的一些建模方式如决策树、深度神经网络也越来越多的应用到了风险建模中。

信用风险模型是数据仓库支持的重要数据应用之一，在风险建模分析阶段，数据仓库是建模样本数据以及衍生指标加工的主要提供者，业务人员一般在自助分析平台进行数据分析和建模，模型建立完成并部署后，会基于数据仓库数据进行模型效果的监控。在贷后管理中，风险集市也会进行贷后指标的加工。另外风险模型以及预警中会经常使用到外部数据，这部分数据也是通过数据仓库进行对接、加工和存储。

贷款用户数据建模的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于贷款用户数据建模怎么做、贷款用户数据建模的信息您可以在本站进行搜索查找阅读喔。