一种基于政府数据的无监督融合模型个人信用评分方法与流程

文档序号:19948500发布日期:2020-02-18 09:54阅读:566来源:国知局
一种基于政府数据的无监督融合模型个人信用评分方法与流程

本发明涉及个人信用评分技术领域,特别涉及一种基于政府数据的无监督融合模型个人信用评分方法。



背景技术:

金融机构从产生至今,仍然面临的、无法改变的风险就是信用风险,也是最根本、最重要的风险之一。个人贷款申请者的信用风险通常来源于以下几个方面:

(1)个人的收入对市场环境和突发事件比较敏感,这两个因素在很大程度上决定了个人贷款的高风险;

(2)针对个人的小额贷款业务基本上都是靠信用办理,不需要贷款人做任何担保或者抵押,贷款机构对违约行为缺乏有效约束措施,造成了很大的信用风险;

(3)在缺乏有效个人信用信息数据的情况下,贷款机构作为资金融出方对于借款人的信息没有一个很好的获取途径,无法真实而全面的了解对方的信息,使得贷款机构明显处于劣势地步,这极不利于它们进行果断而正确的决策。

(4)专业化贷款机构采集信用信息记录具有周期性,并且依赖于金融机构及时信息看反馈,导致一定程度上的个人信用信息滞后。

因此,建立完整的个人风险指标体系、运用信用评价模型规范贷款机构对于个人贷款者的信用评价方法、增强金融机构批量处理信贷申请的能力,能够帮助金融机构妥善应对个人借款者信用风险的同时,提高信贷服务效率。

在信用评价模型选用方面,由于很多借款者缺乏历史信贷数据,或仅有信用卡等非同类产品的历史信贷数据,传统的基于用户标签的有监督算法将不再适用。为解决该问题,徐临,郭亚涛,李吉栋在《基于ahp-dea模型的小额贷款公司风险评价研究》(2017.03)中提供了一种在缺乏标签的情况下运用ahp构建风险评价指标体系,对小额贷款公司的风险进行比较准确、有效的评价的方法,并通过实证分析展示了该方法的较强的适用性与可靠性。但该方法在评价指标选取上依赖专家经验与主观判断,需要进一步论证评价指标的选取具有科学性与可靠性。

在个人信用评价指标选取方面,目前基于个人互联网行为的个人信用行为弱相关指标丰富繁杂,涉及网上购物、社交网络等平台,数据来源十分广泛。这些数据在金融机构用于评价个人信用时存在难以稳定获取、质量难以验证、安全难以保障、效果难以评估等问题。因此,在进行贷前个人信用评价时需要引入可靠、安全、与个人信用行为强相关的数据。王语奇在《住房公积金贷款的信用风险及对策——以北京为例》(2016.06)中,将基于政府数据的个人基本信息与公积金缴存信息(包括性别、贷款时年龄、是否本地人、学历、单位性质、婚姻状况、月收入、公积金缴存状态等)作为个人贷款信用评价指标,并通过logistic模型验证了选用指标的实际业务有效性。

由于个人信用评价结果直接关系着获贷额度,因此是否能够对个人信用进行准确地评价十分关键。

基于上述情况,本发明提出了一种基于政府数据的无监督融合模型个人信用评分方法。



技术实现要素:

本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于政府数据的无监督融合模型个人信用评分方法。

本发明是通过如下技术方案实现的:

一种基于政府数据的无监督融合模型个人信用评分方法,其特征在于,包括以下步骤:

第一步,建立信用风险指标库

采用数据采集与处理技术收集通过授权调用的政府数据,并将脱敏后的政府数据保存于关系型数据库中;筛选关系型数据库中可以列入信用风险指标库的表格及字段,对数据进行预处理、融合和去重,基于关系型数据库建立信用风险指标库;

第二步,建立个人信用风险评价模型

筛选信用风险指标库中可以列入信用评分样本库的相关表格及字段,基于筛选出的样本构建基于层次分析法的个人信用评分模型与基于卡方分箱法的个人信用评分模型;

第三步,基于融合模型进行个人信用评分

将基于层次分析法的个人信用评分模型与基于卡方分箱法的个人信用评分模型的评分结果相融合,从而形成针对申贷个人的信用评分。

所述第一步中,建立信用风险指标库,包括以下步骤:

(1)数据的获取、处理及存储

基于申贷个人用户授权调用政府数据库中的个人信息,包括个人基本信息、公积金缴纳信息和社保缴纳信息,对数据进行脱敏处理,并保存于关系型数据库中;

(2)信用风险指标库入库数据处理

筛选关系型数据库中入选信用风险指标库的相关表格及入库字段,并根据业务需求与建模需求对数据进行特征工程处理,形成能够直观反映信用风险的特征;

(3)信用评分样本库对象筛选

基于建立个人信用评分这一业务目标与特定的产品需求,筛选信用风险指标库中入选信用评分样本库的相关表格及入库字段;

(4)入库数据去重处理

针对选取的入库数据进行数据去重,用脱敏后的身份证号唯一标识申贷个人对象。

所述步骤(2)中,筛选数据库中与个人信用风险密切相关的特征字段,包括个人身份、单位性质、性别、民族、公积金历史缴纳记录、养老保险历史缴纳记录、医疗保险历史缴纳记录和医疗保险账户消费记录字段,并运用特征加工技术形成个人公积金连续缴纳月数、养老保险连续缴纳月数及医疗保险连续缴纳月数特征;

通过数据处理的技术将个人敏感信息进行脱敏,所述步骤(4)中,根据脱敏后的人名与身份证号对数据进行去重;已经入库的个人信用风险指标依照贷款循环周期进行重新授权调用处理,并对指标库中对应身份的个人进行数据更新。

所述第二步中,建立个人信用风险评价模型,包括以下步骤:

(1)筛选建模特征,构建层次结构图

筛选出的建模特征包含个人身份信息、个人公积金与社保连续缴纳月份、个人公积金与社保月缴额、个人公积金与社保缴纳基数和个人公积金与社保缴纳比例;运用筛选出的建模特征根据其内在联系与业务关联,构建目标层、准则层与方案层之间的层次结构图;

(2)层次分析法权重赋值与评分计算

根据层次关系图构建对比判断矩阵,通过综合多位专家打分结果赋予个人信用风险特征不同权重,对特征进行基于分位数的区间划分与原始赋分,形成基于层次分析法的个人信用评分模型;

(3)卡方分箱法区间划分与评分计算

将个人身份作为目标变量根据卡方分箱法对样本集缴纳公积金、社保金额以及三年内缴纳月数进行总体区间划分,并对所得区间进行赋分,形成基于卡方分箱法的个人信用评分模型。

所述步骤(2)中,构建基于层次分析法的个人信用评分模型,包括以下步骤:

(a)基于层次结构图,各评分专家对每层各个因素之间的相对重要性给出数量化的主观判断;然后把这些数量化的分数按照一定的规则形成矩阵的形式,即对比判断矩阵;判断矩阵的含义即表示本层次的主要元素两两比较相对于上一层次元素的重要性;对比判断矩阵的具体数值采用1到9标度方法,将不同专家的评分进行加权平均,得到判断数值,并基于得出各层次的对比判断矩阵,进而计算出各个指标的权重;

(b)在得出各指标权重后,运用方根法要对判断结果进行一致性的检验,检验判断结果前后是否存在逻辑方面的偏误,并在发生逻辑偏误时对标度进行调整,重新确定权重;

(c)对选用的数值型个人信用风险特征进行分布描述,并通过平方根转换法将特征转换为类似正态分布;

(d)对转换后的风险特征按照四分位点进行区间划分,并依据专家意见对每个区间进行初始赋分;

(e)对于样本集中的每个样本,首先按照所落入的区间赋予每个样本风险特征初始分数,其次将特征初始分数乘以特征对应权重得到特征得分,最后将所有特征的得分加总形成这个样本基于层次分析法的信用评分。

所述步骤(3)中,构建基于卡方分箱法的个人信用评分模型,包括以下步骤:

(a)预先设定一个卡方的阈值,并以这个阈值为标准,对数据进行卡方检验,将通过显著性水平和自由度计算出数据的卡方值(即数据对应的卡方值)与预设的阈值进行比较;卡方分箱的过程使用chimerge算法,将置信度设为95%,自由度为4;

(b)对数据进行初始化,根据要离散化的数据对实例进行排序,每个实例属于一个区间;

(c)计算每一个对相邻区间的卡方值,并将卡方值最小的一对区间合并;在这一过程中,对最终的分箱个数结果进行限制,每次将样本中具有最小卡方值的区间与相邻的最小卡方区间进行合并,直到分箱个数达到限制条件为止;同时按照预设卡方阈值对分箱结果进行检验,根据自由度和显著性水平得到对应的卡方阈值,如果分箱的各区间最小卡方值小于卡方阈值,则继续合并,直到最小卡方值超过设定阈值为止;

(d)检查分箱结果,减少类别样本数为0的分箱;

分箱之后,某些箱区间里类别分布比例极不均匀,甚至可能出现某个类别样本数为0的极端结果,这是不合理的,因此需要进一步减少分箱数量;

(e)依据专家意见对卡方分箱后所得区间结果进行赋分;

(f)针对每个样本,获取其所在的卡方分箱结果区间,并为其赋予相应的分值,形成这个样本基于卡方分箱法的信用评分。

所述第三步中,基于融合模型进行个人信用评分,包括以下步骤:

(1)模型加权融合

分别计算出两个信用评分模型评分结果,对标准化至同一区间的结果进行加权求和;

(2)评分区间调整与转换

对加权求和后的个人信用评分结果运用数据转换的方法进行区间调整与正态化变换,获得最终的样本集整体评分分布。

所述步骤(1)中,为保证加权求和结果的可对比性,通过最大-最小值法将两组评分结果标准化,均映射到[0,1]区间;对卡方分箱评分结果赋予权重30%,对层次分析法评分结果赋予权重70%,采用加权求和的方式得出最终评分。

所述步骤(2)中,为使评分结果根据普适性,并且符合行业通用标准,通过分数乘以缩放系数的方式调整到千分制分数区间上;为了结果的泛化性,需要对打分结果进行正态化调整,由于总体评分结果中不包含0值,选用box-cox方法进行变换,使评分结果转换为类似正态分布。

本发明的有益效果是:该基于政府数据的无监督融合模型个人信用评分方法,解决了金融科技领域个人信用状况难以准确评估、个人信用标签难以获得的问题,利用多模型融合技术极大地提升了结果的准确性,同时以评分形式展现的对个人的信用风险量化评价,能够为金融机构提供可靠地个人信用评价。

附图说明

附图1为本发明基于政府数据的无监督融合模型个人信用评分方法示意图。

附图2为本发明基于政府数据的无监督融合模型个人信用评分具体流程示意图。

附图3为本发明基于政府数据的无监督融合模型个人信用评分方法应用场景示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

该基于政府数据的无监督融合模型个人信用评分方法,包括以下步骤:

第一步,建立信用风险指标库

采用数据采集与处理技术收集通过授权调用的政府数据,并将脱敏后的政府数据保存于关系型数据库中;筛选关系型数据库中可以列入信用风险指标库的表格及字段,对数据进行预处理、融合和去重,基于关系型数据库建立信用风险指标库;

第二步,建立个人信用风险评价模型

筛选信用风险指标库中可以列入信用评分样本库的相关表格及字段,基于筛选出的样本构建基于层次分析法的个人信用评分模型与基于卡方分箱法的个人信用评分模型;

第三步,基于融合模型进行个人信用评分

将基于层次分析法的个人信用评分模型与基于卡方分箱法的个人信用评分模型的评分结果相融合,从而形成针对申贷个人的信用评分。

所述第一步中,建立信用风险指标库,包括以下步骤:

(1)数据的获取、处理及存储

基于申贷个人用户授权调用政府数据库中的个人信息,包括个人基本信息、公积金缴纳信息和社保缴纳信息,对数据进行脱敏处理,并保存于关系型数据库中;

(2)信用风险指标库入库数据处理

筛选关系型数据库中入选信用风险指标库的相关表格及入库字段,并根据业务需求与建模需求对数据进行特征工程处理,形成能够直观反映信用风险的特征;

(3)信用评分样本库对象筛选

基于建立个人信用评分这一业务目标与特定的产品需求,筛选信用风险指标库中入选信用评分样本库的相关表格及入库字段;

(4)入库数据去重处理

针对选取的入库数据进行数据去重,用脱敏后的身份证号唯一标识申贷个人对象。

所述步骤(2)中,筛选数据库中与个人信用风险密切相关的特征字段,包括个人身份、单位性质、性别、民族、公积金历史缴纳记录、养老保险历史缴纳记录、医疗保险历史缴纳记录和医疗保险账户消费记录字段,并运用特征加工技术形成个人公积金连续缴纳月数、养老保险连续缴纳月数及医疗保险连续缴纳月数特征;

通过数据处理的技术将个人敏感信息进行脱敏,所述步骤(4)中,根据脱敏后的人名与身份证号对数据进行去重;已经入库的个人信用风险指标依照贷款循环周期进行重新授权调用处理,并对指标库中对应身份的个人进行数据更新。

在进行信用风险建模分析时,基于业务场景与特定需求,会从信用风险指标库中按照预设逻辑提取符合信用风险评价建模需求的样本,统一存入信用评分样本库,并按照评分模型迭代需求定期对样本库进行更新。

所述第二步中,建立个人信用风险评价模型,包括以下步骤:

(1)筛选建模特征,构建层次结构图

筛选出的建模特征包含个人身份信息、个人公积金与社保连续缴纳月份、个人公积金与社保月缴额、个人公积金与社保缴纳基数和个人公积金与社保缴纳比例;运用筛选出的建模特征根据其内在联系与业务关联,构建目标层、准则层与方案层之间的层次结构图;

(2)层次分析法权重赋值与评分计算

根据层次关系图构建对比判断矩阵,通过综合多位专家打分结果赋予个人信用风险特征不同权重,对特征进行基于分位数的区间划分与原始赋分,形成基于层次分析法的个人信用评分模型;

(3)卡方分箱法区间划分与评分计算

将个人身份作为目标变量根据卡方分箱法对样本集缴纳公积金、社保金额以及三年内缴纳月数进行总体区间划分,并对所得区间进行赋分,形成基于卡方分箱法的个人信用评分模型。

层次分析法(ahp)以其独特的定性与定量相结合的分析法而著称,被广泛应用于金融界对信用风险的评估,它对比传统的基于经验评分法有无法替代的优点。首先,ahp模型能够一定程度上融入专家对于信用特征与时俱进的认识变化,不再拘泥于过往给定的相应特征对应的系数;其次,该模型能够比传统基于经验的模型引入更多的特征,并且在特征体系丰富的基础上给出当客户申请贷款时,仍然给出客观统一的评价;最后,在几乎没有标签数据,无法进行有监督的机器学习的情况下,ahp模型能够给出具有较高参考价值的结果。

所述步骤(1)中,在选用入模特征时,基于对个人信贷业务的理解,为了平衡模型的复杂性与包含信息的有效程度,使评分结果有好的区分度,删除缺失率或同值率过大的部分字段,保留公积金、养老保险与医疗保险缴纳信息相关数值字段,着重于量化这三个维度信息反映出的潜在信用风险;

构建层次关系图时,首先把业务目标问题分成几个较为重要的元素,然后把这些元素按不同的属性分成若干组,以便形成不同的层次;同时这些元素又受到上一个层次元素的支配,这种自上而下的支配关系就构成了一个递阶层次;将决策的目标、考虑的元素(决策准则)和决策对象按它们之间的相互关系分为目标层、准则层和方案层,形成个人信用风险指标层次结构图。

所述步骤(2)中,构建基于层次分析法的个人信用评分模型,包括以下步骤:

(a)基于层次结构图,各评分专家对每层各个因素之间的相对重要性给出数量化的主观判断;然后把这些数量化的分数按照一定的规则形成矩阵的形式,即对比判断矩阵;判断矩阵的含义即表示本层次的主要元素两两比较相对于上一层次元素的重要性;对比判断矩阵的具体数值采用1到9标度方法,将不同专家的评分进行加权平均,得到判断数值,并基于得出各层次的对比判断矩阵,进而计算出各个指标的权重;

(b)在得出各指标权重后,运用方根法要对判断结果进行一致性的检验,检验判断结果前后是否存在逻辑方面的偏误,并在发生逻辑偏误时对标度进行调整,重新确定权重;

(c)对选用的数值型个人信用风险特征进行分布描述,并通过平方根转换法将特征转换为类似正态分布;

(d)对转换后的风险特征按照四分位点进行区间划分,并依据专家意见对每个区间进行初始赋分;

(e)对于样本集中的每个样本,首先按照所落入的区间赋予每个样本风险特征初始分数,其次将特征初始分数乘以特征对应权重得到特征得分,最后将所有特征的得分加总形成这个样本基于层次分析法的信用评分。

在做数据挖掘模型时,我们有时会需要把连续型变量转型离散变量,这种转换的过程就是数据离散化,分箱就是离散化常用的一种方法。在评分卡建模过程中,为使模型结果更加稳定、具有更强泛化性,对变量进行分箱是一个必不可少的过程。卡方分箱是自底向上的数据离散化方法。它依赖于卡方检验,将具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。运用卡方分箱进行数据离散化时,相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。而低卡方值表明它们具有相似的类分布。

所述步骤(3)中,构建基于卡方分箱法的个人信用评分模型,包括以下步骤:

(a)预先设定一个卡方的阈值,并以这个阈值为标准,对数据进行卡方检验,将通过显著性水平和自由度计算出数据的卡方值(即数据对应的卡方值)与预设的阈值进行比较;卡方分箱的过程使用chimerge算法,将置信度设为95%,自由度为4;

(b)对数据进行初始化,根据要离散化的数据对实例进行排序,每个实例属于一个区间;

(c)计算每一个对相邻区间的卡方值,并将卡方值最小的一对区间合并;在这一过程中,对最终的分箱个数结果进行限制,每次将样本中具有最小卡方值的区间与相邻的最小卡方区间进行合并,直到分箱个数达到限制条件为止;同时按照预设卡方阈值对分箱结果进行检验,根据自由度和显著性水平得到对应的卡方阈值,如果分箱的各区间最小卡方值小于卡方阈值,则继续合并,直到最小卡方值超过设定阈值为止;

(d)检查分箱结果,减少类别样本数为0的分箱;

分箱之后,某些箱区间里类别分布比例极不均匀,甚至可能出现某个类别样本数为0的极端结果,这是不合理的,因此需要进一步减少分箱数量;

(e)依据专家意见对卡方分箱后所得区间结果进行赋分;

(f)针对每个样本,获取其所在的卡方分箱结果区间,并为其赋予相应的分值,形成这个样本基于卡方分箱法的信用评分。

所述第三步中,基于融合模型进行个人信用评分,包括以下步骤:

(1)模型加权融合

分别计算出两个信用评分模型评分结果,对标准化至同一区间的结果进行加权求和;

(2)评分区间调整与转换

对加权求和后的个人信用评分结果运用数据转换的方法进行区间调整与正态化变换,获得最终的样本集整体评分分布。

层次分析法评分模型着重于考察申请人每个特征在总体中的分布情况并单独赋分后进行加总,卡方分箱评分模型着重于针对分箱目标全局考虑申请人的所有特征,最终形成综合的分组结果。因此,将两个模型融合能够提升模型的丰富性。在融合两个评分模型之前,先对两个模型的整体结果进行相关性检查。根据皮尔森线性相关系数的结果,两个模型的现象相关系数为0.55,p-value为0.2,相关系数结果显著。因此,两个评分模型结果具有一定的相关性,但其结果有所差异,选择融合会提升整体的模型效果。

所述步骤(1)中,卡方分箱评分结果与层次分析法评分结果区间相差较远,为保证加权求和结果的可对比性,通过最大-最小值法将两组评分结果标准化,均映射到[0,1]区间;对卡方分箱评分结果赋予权重30%,对层次分析法评分结果赋予权重70%,采用加权求和的方式得出最终评分。

所述步骤(2)中,由于最大-最小值法转换得到的分数非常小,为使评分结果根据普适性,并且符合行业通用标准,通过分数乘以缩放系数的方式调整到千分制分数区间上;为了结果的泛化性,需要对打分结果进行正态化调整,由于总体评分结果中不包含0值,选用box-cox方法进行变换,使评分结果转换为类似正态分布。

与现有技术相比,该基于政府数据的无监督融合模型个人信用评分方法,具有以下特点:

1、相较于传统基于人工处理的信用审核方法,运用具有可靠数据的标准化的信用评分模型统一对申贷个人进行评估,克服了人工处理的主观性与易错性,使流程更加规范化,增强了线上批量处理申请的能力;

2、区别于基于个别专家的基于过往经验设立的信用评价规则与指标权重,运用层次分析法模型时结合了多位专家意见,能够处理更丰富地维度,并且所有专家所得出的经验必须通过一致性检验,保障了结果的可靠性;

3、在个人信用评分维度上选用了来自于政府的更加稳定、可靠、强相关的个人公积金、社保、基本信息数据,增强了评分结果的业务可解释性;

4、更适用于个人无历史贷款信贷记录、首次提出申贷请求的场景,在无标签的情况下对个人信用行为进行预测与评价;

5、运用融合评分模型的方法,结合两种不同的分箱赋分方式,提高了评分模型结果的可泛化性,能够在更丰富场景下进行应用;

5、伴随后期标签数据的引进、个人历史信息的不断丰富以及多种算法的融合,本发明提出的方法会在保证业务可解释性与可操作性的前提下更加准确地对申贷个人进行评价,应用前景十分广阔。

以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1