一种混合式机器学习信用评分模型构建方法与流程

文档序号:12735402阅读:172来源:国知局

本发明涉及信用智能评价领域,具体地,涉及一种混合式机器学习信用评分模型构建方法。



背景技术:

我国个人零售信贷产业蓬勃发展,在信用卡、住房贷款、汽车贷款、个人助学贷款、耐用消费品贷款等领域,贷款规模不断扩大。机遇伴随风险,在小微信贷产业快速发展的背后,也蕴藏着巨大的风险,特别是信用风险。风险是无法消灭的,只能利用更科学的手段准确地评估风险、以正确的策略有效地控制风险、以最佳的操作全面地管理风险,从而维护金融系统的稳健和安全。

信用评分技术为此而生,它是运用现代的数理统计模型技术,通过对贷款者基本信息、信用历史记录和业务活动记录的深度数据挖掘、分析和提炼,发现蕴藏在纷繁复杂数据中、反应贷款者风险特征和预期信贷表现的知识和规律,预测借款人信用风险值,并通过评分的方式总结出来,作为贷款审批及管理决策的科学依据。

传统信用评分技术,特别是银行业通用的信用评分卡,是以统计思维为内核,采取逻辑回归算法建立的风险预测模型。该算法的优点是简单易用,可解释性强,但局限性有三点,首先是精度不高,其次被拒绝客户的风险表现无法预测,最后高风险客户和低风险客户的划分标准主要是基于经验判断,欠科学。

自互联网技术蓬勃发展以来,线上贷款突飞猛进,借款人数量增大的同时,恶意借款占比也急剧上升,并且线上贷款收集数据非金融特征远多于金融特征,数据样本量和结构复杂度远超以往,传统信用评分技术不再能够有效满足放贷机构的量化风险管理需求。

综上所述,本申请发明人在实现本申请发明技术方案的过程中,发现上述技术至少存在如下技术问题:

在现有技术中,传统信用评分技术存在准确率和效率较差的技术问题。



技术实现要素:

本发明提供了一种混合式机器学习信用评分模型构建方法,解决了传统信用评分技术存在准确率和效率较差的技术问题,实现了通过构建的混合式机器学习信用评分模型,能够高效准确的完成用户信用评价的技术效果。

混合机器学习信用评分能够有效解决传统信用评分卡技术的问题,它是以计算思维为内核,采取机器学习算法,跨越无监督聚类、有监督分类、半监督学习及强化学习等4大领域的全新数据科技应用方法。

在客户类别划分上,采取财务模型嵌入的方式,以贷款毛利为衡量标准对客户分类,使得决策结果更具有业务意义;由于采取高级模型,预测精度远高于传统信用评分卡,另外得益于半监督算法,能够相对科学地预测被拒绝客户信用风险,从而使模型更加全面,具备更好的泛化性能。

本申请提供了一种混合式机器学习信用评分模型构建方法,所述方法包括:

步骤1:基于贷款客户历史数据集确定客户风险分类标准;

步骤2:基于贷款客户历史数据集,通过特征抽取获得贷款客户数据特征集;

步骤3:从备选模型库中选择至少两种模型算法,基于选择的算法建立相应的模型,对建立的模型采用K折交叉检验方法进行模型性能检验,基于模型检验标准对将通过模型性能检验的模型进行标准检验,获得评价指标统计量值,根据各模型标准检验返回的评价指标统计量值大小选取最终建模使用的模型类型;

步骤4:基于选择的模型类型对应的算法,构建信用评分模型。

进一步的,所述方法还包括步骤5,基于建立的信用评分模型,对贷款用户信用进行评分。

进一步的,客户风险分为两类:1和0,1代表高风险客户,0代表低风险客户;首先,对借款人申请信息的分析采取K均值聚类算法,根据数据结构本身的特点,依次将借款人分为3-5簇,对每次分类结果基于业务专家分析进行判断,判断借款人样本类是否属于高风险客户,若属于则直接给该类客户标记为1;然后,以风险加权毛利率为统一标准,对借款人贷后表现做统一评价。

进一步的,从给定样本空间中随机选择k个对象作为初始聚类中心;对于剩余的对象,则根据剩余对象与初始聚类中心的相似度,分别将剩余对象分配给与其最相似的初始聚类中心所代表的聚类;然后再计算每个所获新聚类的聚类中心;不断重复上述过程直到标准测度函数开始收敛为止,算法输出k个簇。

进一步的,风险加权毛利率RWGR=(贷款利率-放款资金成本-坏账率-销售人员提成-逾期还款资金占用成本)/贷款利率;根据贷款机构自身的风险偏好和风险承受度,定下阈值θ∈[0%,100%];

对每任一历史借款人i进行定性评价:

第一步,根据之前聚类计算后得到的划分簇,判断簇中的借款人是否属于高风险客户,若属于则标记为1;

第二步,通过阈值θ进行标记;

若RWGRi大于或等于θ,则将该借款人划分为高风险客户,标签标记为1;

若RWGRi小于θ,则将该借款人划分为低风险客户,标签标记为0。

进一步的,贷款客户数据特征集同时满足下列条件:

贷款客户数据特征集中每一个贷款客户和数据集的行为一一对应映射关系;贷款客户数据特征集无信息缺失;贷款客户数据特征集中所有数据均为数字。

进一步的,通过特征抽取获得贷款客户数据特征集,具体包括:

对于以非数字描述的变量进行数字化处理;

对于信息缺失的,判断对于信息缺失的数量,若超过预设标准,则进行缺失值填充,若未超过预设标准,则丢弃该信息;

对于贷款客户有多行信息的,采取数据聚合处理;

若从贷款客户历史数据集中抽取的贷款客户特征少于10个,则加入公开数据集特征;

最终,获得贷款客户数据特征集。

进一步的,备选模型库中的模型算法包括:逻辑回归算法、决策树算法、支持向量机算法、最近邻算法、朴素贝叶斯算法、随机森林算法、后向传播神经网络算法。

进一步的,K折交叉检验具体为:

将原始数据分为K等份,K是大于1的正整数,随机选取K-1份做为训练集,余下的1份做为验证集,用训练集对分类器进行训练生成模型,再利用验证集来测试训练得到的模型,并返回性能指标。

进一步的,对将通过模型性能检验的模型进行标准检验具体为:

采用Kolmogorov-Smirnov统计量值来衡量预测结果,KS为评价指标统计量值,KS计算方法为:

假设f(s|P)为正样本预测值的累计分布函数,f(s|N)为负样本在预测值上的累计分布函数,则有:

本申请提供的一个或多个技术方案,至少具有如下技术效果或优点:

基于机器学习的信用评分模型能够预测新进客户的违约概率,量化新进客户的风险,从而帮助贷款机构做出是否贷款给该客户的决策;相比传统人工决策,信用评分卡准确度更高、成本更低、消耗时间更少,因此对于贷款机构的风险管理有益。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定;

图1是本申请中混合式机器学习信用评分模型构建方法的流程示意图。

具体实施方式

本发明提供了一种混合式机器学习信用评分模型构建方法,解决了传统信用评分技术存在准确率和效率较差的技术问题,实现了通过构建的混合式机器学习信用评分模型,能够高效准确的完成用户信用评价的技术效果。

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。

请参考图1,首先,确定客户风险分类标准:

即模型学习的标签,在业务上是对借款人未来还款状况预测的一种定性描述,一般而言是划分为两类,写为1和0,分别代表高风险客户(违约可能性大)和低风险客户(违约可能性小)。

未来还款状况的预测是基于过往借款人历史信息的分析,借款人数据主要分为两部分,一是申请资料数据集,另一部分是放款后还款状况的数据集,即贷后表现数据集,故分析工作也由两部分组成。

1)对借款人申请信息的分析采取K均值聚类算法,根据数据结构本身的特点,依次将借款人分为3-5簇(类),每次分类结果均由业务专家断借款人样本类是否属于高风险客户,如属于,直接给该类客户标记为1。这样做的目的是把机器学习算法和专家意见有机结合,对客户的分类做更准确的判断。

K均值算法解释:

给定样本空间中随机选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(点和点之间的欧氏距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数(均方差)开始收敛为止。算法输出k个簇,簇本身尽可能的紧凑,而簇之间尽可能的分开。

然后,以风险加权毛利率为统一标准,对借款人贷后表现做统一评价:

对于贷款机构而言,最重要的指标是每个借款人的风险加权毛利率。公式如下:

风险加权毛利率RWGR=(贷款利率-放款资金成本-坏账率-销售人员提成-逾期还款资金占用成本)/贷款利率;

根据贷款机构自身的风险偏好和风险承受度,定下阈值θ∈[0%,100%];

对每任一历史借款人i进行定性评价:

第一步,根据之前聚类计算后得到的划分簇,由专家判断簇中的借款人是否属于高风险客户,如属于则标记为1

第二步,通过阈值θ进行标记;

凡是RWGRi>=θ,则将该借款人划分为高风险客户,标签标记为1;

凡是RWGRi<θ,则将该借款人划分为低风险客户,标签标记为0;

完成这两步后,历史数据集中的每一个贷款客户的标签都进行了赋值,为模型对其中蕴含规律的学习夯实基础。

特征抽取:

贷款客户的历史数据集是不能直接拿来建模的,因为每一个贷款客户可能对应多条数据,并且贷款客户的信息有可能有缺失。因此,必须对该数据集进行清洗后再从中抽取特征,最终生成一个二维表格样式的数据集,该数据集应当满足以下条件:

每一个贷款客户和数据集的行是一对一严格映射关系,即每个贷款客户在该数据集中只能找到一行信息多列字段。

无信息缺失;所有数据均为数字;特征抽取方法:

信息数据化:对于以非数字描述的变量进行数字化处理,数字化处理的方式为增维,如性别有两个值,男和女,将性别这一列变成两列,一列为性别男,一列为性别女,每一列都只有两个值,一个值是1,一个值是0。1代表性别是男(女),0代表性别不是男(女)。

对于信息缺失的,可采取两种方法:

一种是:有信息缺失的行直接丢弃,适合缺失值非常少的情况;

另外一种是:缺失值填充,可采取该列数据平均值或者众数的方式填充。

对于贷款客户有多行信息的,采取数据聚合的方法,具体如下:

对于有多行信息的贷款客户,其每一列信息增加5列(特征),分别是该列信息的平均值、众数、最大值、最小值、标准差,完成后将原始信息删除。

如果从历史数据集中抽取的贷款客户特征少于10个,则考虑加入公开数据集特征,按照借款人放款时间点,依次加入所在地gdp增长率,所在行业生产总值,当月工业用电,当月物流指数,当月新增ipo股票数量等维度,提升模型预测精度。

模型选择:

根据数据从备选模型里选择至少两种模型算法及K折交叉检验方法和模型检验标准,根据各模型返回的分数大小选取最终建模使用的模型。

备选模型算法:逻辑回归、决策树、支持向量机、最近邻、朴素贝叶斯、

随机森林、后向传播神经网络。

K折交叉检验:

交叉验证是一种模型性能检验的方法。K是大于1的正整数,将原始数据分为K等份,随机选取K-1份做为训练集,余下的1份做为验证集,用训练集对分类器进行训练,生成模型,再利用验证集来测试训练得到的模型,并返回性能指标,为了减少抽样误差,需要遍历所有的训练集和验证集的组合,最后取所有生成指标的平均值作为模型的最终评价结果。通过K折检验,模型效果得到了验证,为其应用在真实业务环境下提供了合理依据。K值选取默认为K=5。

模型检验标准:

采用信用评分卡领域常用的评价指标Kolmogorov-Smirnov(K-S)统计量值来衡量预测结果。KS越高表明模型对正负样本的区分能力越强。其计算方法为:

假设f(s|P)为正样本预测值的累计分布函数,f(s|N)为负样本在预测值上的累计分布函数,则有:

5)模型构建

选定算法后,使用Python为模型主要开发工具,该工具目前已经集成前文所述所有算法,直接调用建模即可。

模型构建好后,使用python将模型封装成桌面程序或程序模块,供贷款机构使用。如贷款机构具备业务处理IT系统,则将该程序模块部署到系统上。如贷款机构不具备IT设施条件,则使用桌面可执行程序(.exe文件),需要手工把建模所需数据输入到程序里,程序处理后返回评分结果。

本申请提供的一个或多个技术方案,至少具有如下技术效果或优点:

基于机器学习的信用评分模型能够预测新进客户的违约概率,量化新进客户的风险,从而帮助贷款机构做出是否贷款给该客户的决策;相比传统人工决策,信用评分卡准确度更高、成本更低、消耗时间更少,因此对于贷款机构的风险管理有益。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1