一种零售信贷业务评分系统及方法与流程

文档序号:15560042发布日期:2018-09-29 02:02阅读:1985来源:国知局
本发明涉及金融系统的数据处理系统及方法,特别涉及一种零售信贷业务评分系统及方法。
背景技术
:随着经济的发展,个人收入提高,人们乐于利用贷款进行消费。个人贷款,又称零售信贷业务,经过几十年的发展,各种征信机构大量出现,银行可以方便、快捷地了解借款人的信用状况,零售信贷业务已成为一项重要的贷款。零售信贷业务具有笔数多、单笔金额小、数据丰富的特征,传统的人工审批即费时又费力,这决定了需要对其进行智能化、概率化的管理模式,因此评分卡在信贷系统的作用越来越重要。然而,目前使用评分卡技术的银行不多,一些中小行甚至不考虑自身的情况直接照搬大行的评分卡,贷款出现了大量违约。评分卡需要由经验丰富的专家来设计,目前中小行普遍缺乏这类专家。甚至在专家较多的大行,由于专家各自的主观感受有所不同,所设计出的评分卡必然不同,难以统一意见。因此,如何设计一套客观的评价方法来开发评分卡,以及如何根据银行自身的特点来设计评分卡,是目前急需解决的难题。技术实现要素:为解决现有技术的不足,提供一种零售信贷业务评分系统及方法,能有效地结合经验及大数据对贷款信息进行合理地判断,提高贷款的准确率,减少贷款违约。为实现上述目的,本发明采用以下技术方案:一种零售信贷业务评分系统,包括数据整合模块、分析决策模块;其中数据整合模块包括数据接口、数据清理整理模块、数据存储模块;分析决策模块包括专家经验评分模块、统计分析评分模块;其中专家经验评分模块:将根据经验筛选出的一组具有良好风险预测能力的风险要素,并根据要素的重要程度赋予不同的分值,得出办理业务的客户的分值;其中统计分析评分模块:以海量大数据为基础、机器学习算法为支持,得出办理业务的客户的分值;包括风险模型建置与风险模型验证,在所述风险模型建置前,将历史信贷数据随机分成训练数据集和测试数据集,训练数据集用于模型建置,测试数据集用于模型验证;上述的一种零售信贷业务评分系统,其中分析决策模块还包括人工修正模块,该模块用于对专家经验评分模型或机器学习评分模型得出的办理业务的客户的分值进行人工修正。一种零售信贷业务评分方法,步骤如下:步骤1,根据常用的经验方法“5c”、“5p”或“lapp”其中之一构建专家经验评分模型:即按照加权值将不同的指标换算成对应的分数,得到一张分值表;步骤2.1,按大型银行、中型银行和小型银行三类,对银行类型赋予不同的权重,用如下的公式换算成对应指标的重要程度:其中,ai,i=1,2,...,n为各类银行的指标选取情况统计,ri为对应的银行类型权重;按照指标的重要程度d,优先向评分卡构建人员推荐重要程度高的指标;步骤2.2,对各要素赋予不同的权重并根据步骤2中赋予银行类型权重,按比例换算成指标的分数;用如下公式计算出各要素的综合分数设定值:其中,si为各类银行对某指标的分数设定比例;各要素下所有指标的综合分数计算完毕后,再根据用户设定的要素权重以及各指标的综合分数值,按比例分配分数,计算公式如下:其中,m为该指标所属要素的权重,s为预设评分卡的总分值;步骤3,资料搜集与准备:包括数据加载、建立目标、业务定义、数据清理与数据整理;将来自数据整合模块的数据进行清理,对缺失或异常的数据,如果某类特征项大量缺失,可以直接删除;如果少量缺失,可以用该特征变量的中位数或众数来填充,或者编码成另一特征项;此外,对于异常数据,直接剔除或采用中位数或众数来填补;步骤4,变量分析与选择:包括变量分组、变量选择;4.1变量分组:对历史数据根据不同的特征变量进行分组,并将数据归入相应的特征项;特征变量分组需要将样本容量少或发生比较接近的特征项进行合并;4.2变量选择:根据iv来选择变量,当iv大于阈值时,该变量可以作为有效变量选择,特征变量的信息价值(informationvalue,iv)定义如下:其中,pij是第i个特征变量的第j特征项中好客户占总的好客户比重,qij是第i个特征变量的第j特征项中坏客户占总的坏客户比重;步骤5,风险模型构建:使用逻辑回归算法对发放贷款的数据构建初步评分模型,使用初步评分模型估计被拒绝放贷的样本的标记,将步骤4中已标记的样本和本步骤估计的被拒绝放贷样本作为训练样本,重新使用逻辑回归算法进行训练,此时训练好的模型为最终的评分模型:步骤5.0使用逻辑回归算法进行建模,得到初步评分模型:上式中p是好客户的概率,xi(i=0,1.2...,n)是特征项,wi(i=0,1,2...,n)是权重,在建模时,需要将特征变量转化为虚拟变量;步骤5.1,使用初步评分模型对已标记的数据进行评分,并根据分数的高低对数据进行排序,将其等分为若干组;步骤5.2,使用初步评分模型对未标记的数据进行评分,并根据每条数据估计的回归模型中的p值分配到由步骤6.1得到的对应的分组;步骤5.3,根据每个分组正常/违约的概率,以稍大的概率将分组内未标记的数据标记为违约,以稍小的概率标记为正常;步骤5.4,将步骤4中的违约和不违约的数据和步骤5.3估计后的数据进行合并,再使用逻辑回归算法建模,得到最终的评分模型;步骤6,评分转换,根据所述风险模型建置生成的评分模型,按照各风险因素的比重,换算成对应的分数;使用odds表示好坏客户发生比,其对应的分数表示为score=ln(odds)*scale+location(6)其中scale和location参数的设定需要根据用户预设值推导得到,具体设定方法见实施例;步骤7,评分模型校验,使用测试数据集验证评分模型的效能:常用的模型效能校验的方法有:混淆矩阵、k-s、roc等;由此建立的评分模型预测的好坏客户和实际客户的好坏符合判断标准,完成评分模型的建立。附图说明图1是本发明一种零售信贷业务评分卡系统。图2是本发明基于机器学习的评分卡构建过程。具体实施方式参照附图,本发明所述一种零售信贷业务评分卡系统,包括:数据整合模块:统一多渠道大数据接入,还包括贷前调查信息、第三方大数据、人行征信、行内信息,并且对数据进行清理整理后进行存储;分析决策模块:利用所述数据整合平台提供的数据,训练专家经验评分模型或统计分析评分模型,根据零售贷款生命在不同阶段所具有的特性,分别开发获客评分、申请评分、行为评分、催收评分;本案申请可以应用在以下业务领域:在所述分析决策平台的基础上,可以支持多项业务,包括房贷、车贷、综合消费贷、小微贷、pos贷、税易贷、公积金贷、营销服务、审批决策、客户服务、贷后管理等多种零售信贷业务。专家经验评分模型,是一种基于经验判断的评分模型,根据经营管理、市场营销、授信审批和风险控制等各方面专家对信贷审批政策、市场知识、风险偏好和行业政策等的共同知识和经验,筛选出一组具有良好风险预测能力的风险要素,并根据要素的重要程度赋予不同的分值,开发出一套基于经验判断的审批模型。统计分析评分模型,是一种以海量大数据为基础、机器学习算法为支持的评分模型,包括风险模型建置与风险模型验证,在风险模型建置前,将历史信贷数据随机分成训练数据集和测试数据集,训练数据集用于模型建置,测试数据集用于模型验证。此外,由于实际的需求,比如根据政策、贷款审批人的经验等,被专家经验评分模型或统计分析评分模型批准或拒绝的贷款可以被人工修正。下面进一步对本发明进行阐述。本发明所述基于专家经验的评分卡的构建过程如下:步骤1,根据目标评分卡应用的领域范围,选择经验开发方法,具体的,常用的经验方法有“5c”、“5p”、“lapp”等。本例中,选择“5c”方法,即分别从借款人品德(character)、经营能力(capacity)、资本(capital)、资产抵押(collateral)、经济环境(condition)等5个方面进行指标的选取。具体如下:character:要求借款人必须诚实可信,善于经营,指标包括:年龄、文化、奖惩、技术结构、遵纪守法情况、开拓进取及领导能力、团结协作精神及组织管理能力等;capacity:要分析借款人的经营能力及获利情况,指标包括:管理制度是否健全、管理手段是否先进、产品生产销售是否正常、在市场上有无竞争力、经营规模和经营实力是否逐年增长、财务状况是否稳健等;capital:了解企业资本规模和负债比率,反映企业资产或资本对于负债的保障程度,相应的指标为:资本规模、负债比率等;collateral:分析担保抵押手续是否齐备,指标包括:抵押品的估值和出售有无问题、担保人的信誉是否可靠等;condition:预测其对企业经营效益的影响,指标包括:企业发展前景、行业发展趋势、市场需求变化等。其余两种方法“5p”和“lapp”是“5c”的替代方案,在构建专家经验评分模型时只能选择三者中的一个,其余两者的具体指标选取方案如下:“5p”,个人(personal)、目的(purpose)、偿还(payment)、保障(protection)、潜力(perspective)等。具体如下:personal:品德(是否诚实守信、有无丧失信用事迹)、还款意愿是否可靠、借款人的资格(依法登记、持有营业执照的企事业法人、产品有市场、经营有效益、在银行开立基本账户、并具有可供抵押的资产或能提供担保人)、还款能力(企业经营者的专业技能、领导才能及经营管理能力)等;具体比如,可以设“年龄”、“文化”、“奖惩”、“抵押担保”、“行业水准”等指标;purpose:生产经营(贷款类型,产业类型;项目在经济和技术上的可行性)、还债交税(是否符合规定)、替代股权(是否用于替代股权或弥补亏损)等;具体比如,可以设“贷款类型”、“产业类型”、“市场前景”、“还债交税”、“替代股权”等指标;payment:现金流量(经营活动现金的流入、流出和净流量,现金净流量同流动负债的比率以及企业在投资、融资方面现金的流入流出情况)、资产变现(流动比率、速动比率以及应收账款与存货的周转情况)等;具体比如,可以设“现金流量”、“现金净流量同流动负债的比率”、“投资或融资现金流”、“流动比率”、“速动比率”、“应收账款与存货的周转情况”等指标;protection:内部保障(财务结构是否稳健、盈利水平是否正常)、外部保障(担保人的财务实力及信用)等;具体比如,可以设“财务结构”、“盈利水平”、“担保人的财务实力及信用”等指标;perspective:可以设“产业政策”、“竞争能力”、“产品寿命周期”、“新产品开发情况”、“财务风险”等指标。“lapp”,流动性(liquidity)、活动性(activity)、盈利性(profitability)、潜力(potentiality)等。具体如下:liquidity:以变为现金的流动资产来偿付其债务的能力,反映流动性的指标主要有:流动比率、速动比率、流动性比率等;activity:客户的业务活动能力,反映活动性的指标主要有:生产和销售、市场竞争、市场占有率、往来客户、应收账款和应付账款、平均收账期、资金周转等;profitability:客户的获利能力,反映盈利性的指标主要有:企业销售额与利润的关系、成本与利润的关系、毛利润与净利润的关系、利润率;potentiality:客户的业务发展潜力,反映潜力性的指标主要有:产品结构、市场趋势、经济周期、业务的开拓和发展、资金来源、管理效率等。步骤2.1,对银行类型(在指标的选择中偏向某类银行的做法)赋予不同的权重,系统根据各类银行的指标选取方案以及对应的类型权重,用如下的公式换算成对应指标的重要程度:其中,ai,i=1,2,...,n为各类银行的指标选取情况统计,ri为对应的类型权重。按照指标的重要程度,即d值,优先向评分卡构建人员推荐重要程度高的指标。本例中,构建人员对大行较为信赖,中小行次之,则对应的权重可以设为大行0.6,中小行各为0.2。对于“5c”中character的指标选择,假设有50%的银行采用“年龄”指标,其中大行为30%,中行为5%,小行为15%,则该指标对应的重要程度为d=0.22。步骤2.2,对各要素赋予不同的权重并根据步骤2中赋予银行类型权重,按比例换算成指标的分数。比如,如下表,“5c”的权重分别设为0.15、0.25、0.25、0.3、0.05。要素是指一组具有共同特征的指标,例如“5c”方法包括5个要素,即character、capacity、capital、collateral、condition,“lapp”方法包括4个要素,即liquidity、activity、profitability、potentiality。每一个要素包含不同的指标。要素(5c)权重character0.15capacity0.25capital0.25collateral0.3condition0.05本例,取“5c”进行建模,指标分数的计算方法如下:对于“5c”中character的指标选择,假设选了“年龄”、“文化”、“奖惩”等指标,各银行具体的分值设定如下表,信用总分为100分,则按照各类银行的指标分数设定方案以及用户预先设定好的银行偏好权重,可以用如下公式计算出综合分数值:其中,si为各类银行对某指标的分数设定比例。该要素下所有指标的综合分数计算完毕后,再根据用户设定的要素权重以及各指标的综合分数值,按比例分配分数,计算公式如下:其中,m为该指标所属要素的权重,s为预设评分卡的总分值。最终计算结果如下表:大行中行小行综合分数值分数年龄5%7%3%5%3.7文化5%3%8%5.2%3.9奖惩情况10%12%8%10%7.4各项指标上限分数的细分表,如下:步骤3,资料搜集与准备:包括数据加载、建立目标、业务定义、数据清理与数据整理;数据来源于所述数据整合平台,具体的,本例为2018年信贷业务开发信贷评分卡,采用的数据是2014-2016年的信贷数据:每笔贷款数据的类别可能为违约(坏客户)、不违约(好客户)或被拒绝放贷(风险客户),其中可能由于部分原因造成数据缺失或异常,例如,放贷人员未收集客户的部分信息或录入错误的数据。数据加载完毕后,需要对这部分的数据进行清理与整理,例如,特征变量“性别”原有的特征项是“男性”和“女性”,但一些申请人在填写申请表时此项没有填写,造成数据缺失,如果这类特征项大量缺失,可以直接删除,如果少量缺失,可以用该特征变量的中位数或众数来填充,或者编码成另一特征项(如,“未知”)。此外,关于异常数据,例如,特征变量“年龄”,通常在100以内,如果出现类似500等不符合常理的数据,被认为是异常数据,对于这类数据可以直接剔除或采用中位数或众数来填补。步骤4,变量分析与选择:包括变量分组、变量选择;4.1变量分组:对历史数据根据不同的特征变量进行分组,并将数据归入相应的特征项。特征变量分组需要将样本容量少或“发生比”较接近的特征项进行合并。例如,特征变量“住房”的特征项分布如下表:表中的特征项,“好客户发生比”由“好客户百分比”除以“坏客户百分比”得到。由于“未知”、“分期付款购买公寓”、“自己拥有公寓”三个特征项中好、坏客户的样本数目均太少,其对应的发生比没有意义,故对这三项进行合并,称为“其他”;“租赁无家具住房”和“租赁有家具住房”的好客户发生比很接近,合并为一组,称为“租赁住房”;“分期付款购买住宅”和“自己拥有住宅”的发生比也比较接近,将它们合并成一组,称为“自有住宅”。最后的分组合并结果如下表:4.2变量选择:根据iv来选择变量,当iv大于阈值时,该变量可以作为有效变量选择,本例中阈值设为0.1。变量的选择采用计算特征变量的信息价值(informationvalue,iv):其中,pij是第i个特征变量的第j特征项中好客户占总的好客户比重,qij是第i个特征变量的第j特征项中坏客户占总的坏客户比重。通常,当ivi>0.1时,可以考虑将第i个特征变量包括在信用评分模型中。步骤5,风险模型构建,使用回归算法对发放贷款的数据构建初步评分模型,使用初步评分模型估计被拒绝放贷的样本的标记(好或坏客户),将步骤5中已标记的样本和本步骤估计的被拒绝放贷样本作为训练样本,重新使用逻辑回归算法进行训练,此时训练好的模型为最终的评分模型:步骤5.0本例中,使用逻辑回归算法进行建模,得到初步评分模型:上式中p是好客户的概率,xi(i=0,1.2...,n)是特征项,wi(i=0,1,2...,n)是权重,在建模时,需要将特征变量转化为虚拟变量,例如,特征变量“月收入”有三个特征项,“≤2000”、“2000~4000”、“≥4000”,需要用两个虚拟变量描述:然后,使用初步模型对被拒绝放贷的数据进行估计。最后,将步骤5中的违约和不违约的数据和步骤6.0估计后的数据进行合并,再使用回归算法建模,得到最后的评分模型。其中,所述使用初步评分模型标记这些被拒绝放贷数据,步骤如下:步骤5.1,使用初步评分模型对已标记的数据进行评分,并根据分数的高低对数据进行排序,将其等分为若干组。如下表中“核准户”数据,正常率越高表示其分组的平均分数越高;步骤5.2,使用初步评分模型对未标记的数据进行评分,并根据每条数据估计的回归模型中的p值分配到由步骤6.1得到的对应的分组,例如某条未标记的数据正常率被估计为0.95,则它对应的分组为6;步骤5.3,根据每个分组正常/违约的概率,以稍大的概率将分组内未标记的数据标记为违约,以稍小的概率标记为正常;具体的,稍大的违约率设为对应分组违约率的1.2倍。具体的,例如,一个分组中,违约数据为10条,不违约数据为10条,则违约率为50%,取一个稍大的概率60%,则未标记的数据的以60%的概率标记为违约,以40%标记为不违约,因为被拒绝放贷的客户本身风险较大。步骤6,评分转换,根据所述风险模型建置生成的评分模型,按照各风险因素的比重,换算成对应的分数;具体的,odds表示好坏客户发生比,其对应的分数表示为score=ln(odds)*scale+location,(6)其中scale和location的设定方法如下:1)设定odds=1:1时的分数300分(即location为300);2)设定odds每增加1倍时,相对增加的分数(假设为20分,以此分数称为pointofdoubleodds,pdo);3)将odds=1:1及2:1时的分数套入公式,得到下列两式:300=ln(1)*scale+location,(7)300+20=ln(2)*scale+location,(8)4)解式(7)和(8),可得分数的计算公式:score=ln(odds)*20/ln(2)+300,(9)比如,根据4)举例如下,转换结果如下表所列:信用评分(score)胜算率(odds)......2801:23001:13202:13403:1......本例中,由逻辑回归算法生成的评分模型如下:已知“收入”的信息价值占中信息价值30%,则特征变量“收入”的基准分为300*30%=90分,对应的特征项取值由式(9)计算得到,具体的计算实例如下:特征项分数≤2000(income1=1,income2=0)20/ln(2)*(-0.2)+90=842000~4000(income1=0,income2=1)20/ln(2)*(-0.1)+90=87≥4000(income1=0,income2=0)90步骤7,评分模型校验,使用测试数据集验证评分模型的效能:具体的,常用的模型效能校验的方法有:混淆矩阵、k-s、roc等。本例以混淆矩阵进行验证:混淆矩阵:混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。每一列中的数值表示真实数据被预测为该类的数目:如下表,第一行第一列中的179表示有179个实际标记为好客户的样本被预测为好客户,但有12个被误测为坏客户。本例建立的评分模型可以预测好坏客户和实际客户的好坏是否符合判断标准,至止,本例所建立的评分模型可以实际应用。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1