征信违约风险的评估方法及装置、存储介质、计算机设备与流程

文档序号:16902213发布日期:2019-02-19 18:07阅读:196来源:国知局
征信违约风险的评估方法及装置、存储介质、计算机设备与流程

本发明涉及一种数据处理技术领域,特别是涉及一种征信违约风险的评估方法及装置、存储介质、计算机设备。



背景技术:

随着金融企业征信领域的快速发展,为了确保企业在对用户的信用贷款方面不会造成过大的经济损失,金融企业会对用户的征信情况进行评估,例如,银行的信用卡部门在对用户发放信用卡之前,都会对用户的信用程度进行审批。

目前,国内大多数银行的信用卡部门采取人工审批作业形式,效率低,而又面临很大的欺诈、违约风险,无法进行风险分级管理,影响风险控制的能力及灵活度,难以在风险与市场之间寻求合适的平衡点,且部分使用评分卡模型的银行,采用的方法基于专家规则,其预测的准确率又显然不够,由于处理数据过于粗糙,使得对征信违约风险的评估准确率明显受到影响。



技术实现要素:

有鉴于此,本发明提供一种征信违约风险的评估方法及装置、存储介质、计算机设备,主要目的在于解决现有国内大多数银行的信用卡部门采取人工审批作业形式,效率低,而又面临很大的欺诈、违约风险的问题。

依据本发明一个方面,提供了一种征信违约风险的评估方法,包括:

获取用户的征信信息、基本信息、贷款记录信息,并对所述征信信息、所述基本信息、所述贷款记录信息中的变量信息进行数据量化处理;

采用特征分箱方式对进行数据量化处理后的变量信息进行变量划分选取,所述特征分箱用于将连续的变量信息进行离散化;

通过预先建立的征信违约风险评估模型计算变量划分选取后的变量信息的征信违约风险评估值,所述征信违约风险评估模型为根据变量信息预测征信违约风险评估值的逻辑回归模型。

进一步地,所述采用特征分箱方式对进行数据量化处理后的变量信息进行变量划分选取之前,所述方法还包括:

判断进行数据量化处理后的变量信息中是否存在缺失变量,所述缺失变量为进行数据量化处理后的变量信息中数据不存在的变量;

若进行数据量化处理后的变量信息中存在缺失变量,则对所述缺失变量进行缺失值填补处理,将缺失值填补处理后的变量信息确定为进行变量划分选取的变量信息;

若进行数据量化处理后的变量信息中不存在缺失变量,则将所述变量信息确定为进行变量划分选取的变量信息。

进一步地,所述采用特征分箱方式对进行数据量化处理后的变量信息进行变量划分选取包括:

对所述变量信息中的数据按照预置顺序进行排序,并通过所述数据中每两个相邻数据之间的中位数计算分裂点的数组;

计算所述数组中分裂点的柯尔莫可洛夫-斯米洛夫检验ks值,并将ks值最大的分裂点确定为所述数组中的最终分裂点;

按照迭代方式计算所述数组中符合预设停止分裂条件的所有最终分裂点;

按照预设数组个数通过信息价值iv计算公式计算所述最终分裂点中的最优分裂点,将所述最优分裂点划分出的数据对应的变量信息确定为进行变量划分选取后的变量信息。

进一步地,所述获取用户的征信信息、基本信息、贷款记录信息,并对所述征信信息、所述基本信息、所述贷款记录信息中的变量信息进行数据量化处理之前,所述方法还包括:

建立逻辑回归模型,并将所述逻辑回归模型确定为征信违约风险评估模型,所述逻辑回归模型中的的输入变量个数与所述变量信息的个数相同,所述逻辑回归模型中的模型参数为可更新的阈值。

进一步地,所述通过预先建立的征信违约风险评估模型计算变量划分选取后的变量信息的征信违约风险评估值之后,所述方法还包括:

采集用户的信用行为评分;

判断所述征信违约风险评估值与所述信用行为评分的差是否超过预设阈值;

若所述征信违约风险评估值与所述信用行为评分的差值超过预设阈值,则更新所述逻辑回归模型中的模型参数以及更新所述变量划分选取步骤中的变量选取。

进一步地,所述更新所述逻辑回归模型中的模型参数包括:

根据所述差值超出预设阈值的数值选取预设模型参数更新策略,并根据所述预设模型参数更新策略对所述逻辑回归模型中的模型参数进行更新;

根据所述差值超出预设阈值的数值选取预设变量选取策略,并根据所述变量选取策略调整所述变量划分选取步骤中的变量选取。

进一步地,所述方法还包括:

统计预设时间间隔内不同用户的征信违约风险评估值,将大于预设异常征信违约风险评估值的征信违约风险评估值对应的用户存储至征信违约风险黑名单中,并进行报警。

依据本发明一个方面,提供了一种征信违约风险的评估装置,包括:

获取单元,用于获取用户的征信信息、基本信息、贷款记录信息,并对所述征信信息、所述基本信息、所述贷款记录信息中的变量信息进行数据量化处理;

选取单元,用于采用特征分箱方式对进行数据量化处理后的变量信息进行变量划分选取,所述特征分箱用于将连续的变量信息进行离散化;

计算单元,用于通过预先建立的征信违约风险评估模型计算变量划分选取后的变量信息的征信违约风险评估值,所述征信违约风险评估模型为根据变量信息预测征信违约风险评估值的逻辑回归模型。

进一步地,所述装置还包括:

第一判断单元,用于判断进行数据量化处理后的变量信息中是否存在缺失变量,所述缺失变量为进行数据量化处理后的变量信息中数据不存在的变量;

填补单元,用于若进行数据量化处理后的变量信息中存在缺失变量,则对所述缺失变量进行缺失值填补处理,将缺失值填补处理后的变量信息确定为进行变量划分选取的变量信息;

确定单元,用于若进行数据量化处理后的变量信息中不存在缺失变量,则将所述变量信息确定为进行变量划分选取的变量信息。

进一步地,所述选取单元包括:

划分模块,用于对所述变量信息中的数据按照预置顺序进行排序,并通过所述数据中每两个相邻数据之间的中位数计算分裂点的数组;

第一确定模块,用于计算所述数组中分裂点的柯尔莫可洛夫-斯米洛夫检验ks值,并将ks值最大的分裂点确定为所述数组中的最终分裂点;

计算模块,用于按照迭代方式计算所述数组中符合预设停止分裂条件的所有最终分裂点;

第二确定模块,用于按照预设数组个数通过信息价值iv计算公式计算所述最终分裂点中的最优分裂点,将所述最优分裂点划分出的数据对应的变量信息确定为进行变量划分选取后的变量信息。

进一步地,所述装置还包括:

建立单元,用于建立逻辑回归模型,并将所述逻辑回归模型确定为征信违约风险评估模型,所述逻辑回归模型中的的输入变量个数与所述变量信息的个数相同,所述逻辑回归模型中的模型参数为可更新的阈值。

进一步地,所述装置还包括:

采集单元,用于采集用户的信用行为评分;

第二判断单元,用于判断所述征信违约风险评估值与所述信用行为评分的差是否超过预设阈值;

更新单元,用于若所述征信违约风险评估值与所述信用行为评分的差值超过预设阈值,则更新所述逻辑回归模型中的模型参数以及更新所述变量划分选取步骤中的变量选取。

进一步地,所述更新单元,具体用于根据所述差值超出预设阈值的数值选取预设模型参数更新策略,并根据所述预设模型参数更新策略对所述逻辑回归模型中的模型参数进行更新;

所述更新单元,具体还用于根据所述差值超出预设阈值的数值选取预设变量选取策略,并根据所述变量选取策略调整所述变量划分选取步骤中的变量选取。

进一步地,所述装置还包括:

统计单元,用于统计预设时间间隔内不同用户的征信违约风险评估值,将大于预设异常征信违约风险评估值的征信违约风险评估值对应的用户存储至征信违约风险黑名单中,并进行报警。

根据本发明的又一方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述征信违约风险的评估方法对应的操作。

根据本发明的再一方面,提供了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述征信违约风险的评估方法对应的操作。

借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:

本发明提供了一种征信违约风险的评估方法及装置、存储介质、计算机设备,首先获取用户的征信信息、基本信息、贷款记录信息,并对所述征信信息、所述基本信息、所述贷款记录信息中的变量信息进行数据量化处理;采用特征分箱方式对进行数据量化处理后的变量信息进行变量划分选取,所述特征分箱用于将连续的变量信息进行离散化;通过预先建立的征信违约风险评估模型计算变量划分选取后的变量信息的征信违约风险评估值,所述征信违约风险评估模型为根据变量信息预测征信违约风险评估值的逻辑回归模型。与现有国内大多数银行的信用卡部门采取人工审批作业形式相比,本发明实施例通过对征信信息、基本信息、贷款记录信息进行数据量化处理,利用特征分箱方式对数据量化后的变量信息进行变量划分选取,将选取后的变量作为征信违约风险评估模型的输入,计算征信违约风险评估值,实现征信违约风险的自动评估,避免人工评估带来的人为误差,提高征信违约风险评估的效率,大大降低了用户的欺诈与违约的风险。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的一种征信违约风险的评估方法流程图;

图2示出了本发明实施例提供的另一种征信违约风险的评估方法流程图;

图3示出了本发明实施例提供的一种征信违约风险的评估装置框图;

图4示出了本发明实施例提供的另一种征信违约风险的评估装置框图;

图5示出了本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种征信违约风险的评估方法,如图1所示,所述方法包括:

101、获取用户的征信信息、基本信息、贷款记录信息,并对所述征信信息、所述基本信息、所述贷款记录信息中的变量信息进行数据量化处理。

其中,所述征信信息包括金融机构、信贷机构等对个人信用数据库所采集、整理、保存的,为商业银行和个人提供信用报告查询服务,为货币政策定制、金融监管和法律、法律规定的其他用途提供有关信息服务所使用的个人信用信息,可以包括用户所对某机构的具体信用情况,例如,可以为用户1在2000年欠于中国银行20万元,拖欠至今未偿还,本发明实施例不做具体限定。所述基本信息为用户的个人身份信息,包括姓名、性别、年龄等,本发明实施例不做具体限定。所述贷款记录信息为用户在各个金融机构或银行中所登记的贷款信息,例如,用户的还款信息等,本发明实施例不做具体限定。

本发明实施例中,数量化处理即为将上述信息中的文字数据转化为对应的数字数据,以便可以进行数据处理及评分计算,具体的可以通过rfm特征得到新的变量数据,例如,针对贷款记录信息,其中,r(recency)为客户最近一次交易时间的间隔,r值越大,表示客户交易发生的日期越久,反之则表示客户交易发生的日期越近;f(frequency)为客户在最近一段时间内交易的次数,f值越大,表示客户交易越频繁,反之则表示客户交易不够活跃;m(monetary)为客户在最近一段时间内交易的金额,m值越大,表示客户价值越高,反之则表示客户价值越低,本发明实施例不做具体限定。另外,对于基本信息、征信信息还可以通过特征组合、交叉特征因子等进行数量化处理,例如,年龄30~40岁工资在12000~15000之间的男性可以直接进行固定数值90的数量化等,本发明实施例不做具体限定。

需要说明的是,本发明实施例中的征信信息、基本信息、贷款记录信息都可以通过企业的征信报告中进行获取,一般的,征信报告是通过专业的征信人员对用户实时录入的信息进行记录得到的,并存储至固定的征信数据库中。

102、采用特征分箱方式对进行数据量化处理后的变量信息进行变量划分选取。

对于本发明实施例,为了使数据处理过程中,使得征信违约风险评估模型计算时更为稳定,降低模型过拟合的风险,采用特征分箱方式对进行数据量化处理后的变量信息进行选取,所述特征分箱用于将连续的变量信息进行离散化。

需要说明的是,本发明中的特征分箱方式包括的步骤分别为排序、分裂点划分、分裂点选取、最优分裂点确定,从而得到离散化后的变量信息。

103、通过预先建立的征信违约风险评估模型计算变量划分选取后的变量信息的征信违约风险评估值。

其中,所述征信违约风险评估模型为根据变量信息预测征信违约风险评估值的逻辑回归模型,本发明实施例中的逻辑回归模型是基于线性回归的基础上,加入逻辑函数实现的逻辑回归,由于逻辑回归模型的回归效果不同,而对于不同的变量信息在进行回归时,可以添加不同的逻辑函数,因此,本发明实施例对基于逻辑函数的征信违约风险评估模型的具体形式不做具体限定。

需要说明的是,可以通过将步骤102中变量划分选取的变量作为预先建立的征信违约风险评估模型的输入,然后运算所述模型,即可得到征信违约风险评估值。

本发明提供了一种征信违约风险的评估方法,与现有国内大多数银行的信用卡部门采取人工审批作业形式相比,本发明实施例通过对征信信息、基本信息、贷款记录信息进行数据量化处理,利用特征分箱方式对数据量化后的变量信息进行变量划分选取,将选取后的变量作为征信违约风险评估模型的输入,计算征信违约风险评估值,实现征信违约风险的自动评估,避免人工评估带来的人为误差,提高征信违约风险评估的效率,大大降低了用户的欺诈与违约的风险。

本发明实施例提供了另一种征信违约风险的评估方法,如图2所示,所述方法包括:

201、建立逻辑回归模型,并将所述逻辑回归模型确定为征信违约风险评估模型。

对于本发明实施例,为了提高征信违约风险的评估准确性,通过建立逻辑回归模型的方式,将建立好的逻辑回归模型确定为征信违约风险评估模型,以便通过将变量信息作为征信违约风险评估模型的输入,运行模型后即可得到评估值。所述逻辑回归模型中的的输入变量个数与所述变量信息的个数相同,所述逻辑回归模型中的模型参数为可更新的阈值。

需要说明的是,本发明实施例中,逻辑回归模型是基于线性回归的基础上加入逻辑函数,加入的逻辑函数可以为p(y=1x=x)=exp(x'β)/(1+exp(x'β)),其中模型参数β可以为极大似然估计,也可以为其他用户设置或选择的阈值,以便在征信违约风险评估模型精确度不准确时,根据更新模型参数来提高征信违约风险评估模型精确度。

202、获取用户的征信信息、基本信息、贷款记录信息,并对所述征信信息、所述基本信息、所述贷款记录信息中的变量信息进行数据量化处理。

本步骤与图1所示的步骤101方法相同,在此不再赘述。

203、判断进行数据量化处理后的变量信息中是否存在缺失变量。

对于本发明实施例,由于需要计算的评估值的影响因素很多,避免遗漏作为输入参数的变量信息,需要判断数据量化处理后的变量信息中是否存在缺失变量,所述缺失变量为进行数据量化处理后的变量信息中数据不存在的变量,例如,贷款记录信息中,变量信息为用户1在2000年提前还款,对应的数据不存在,则说明用户1在2000年没有提前还款,这种情况下,这个变量信息对应的数据是缺失的,因此,则认为这个变量信息为缺失变量。一般的,这种缺失变量,记录人员不会因为缺失数据直接进行添加0,而是直接将此类的变量信息对应的数据直接置空。

需要说明的是,步骤203中可用于判断变量信息中是否存在缺失变量的方法为直接判断变量信息中的数据是否存在,若存在数据,无论数据为什么,则说明这个变量信息不缺失,若不存在数据,则说明这个变量信息为缺失变量,本发明实施例不做具体限定。

204a、若进行数据量化处理后的变量信息中存在缺失变量,则对所述缺失变量进行缺失值填补处理,将缺失值填补处理后的变量信息确定为进行变量划分选取的变量信息。

对于本发明实施例,为了使得缺失变量也可以作为征信违约风险评估模型的输入变量,以便准确计算征信违约风险评估值,需要对缺失变量进行缺失值填补处理,即将缺失的数据填补为特定的数据。

需要说明的是,本发明实施例中,填补的数据可以为全部填补为0,也可以全部填补为-1,还可以将缺失的数据填补为特定的中位数,本发明实施例不做具体限定。

对于本发明实施例,与步骤204a并列的步骤204b、若进行数据量化处理后的变量信息中不存在缺失变量,则将所述变量信息确定为进行变量划分选取的变量信息。

对于本发明实施例,不存在缺失变量,则说明每个变量信息中都包含已经进行数量量化处理后的具体数值,可以作为征信违约风险评估模型的输入,则直接将这些变量信息确定为待进行变量划分选取的变量信息。

205、对所述变量信息中的数据按照预置顺序进行排序,并通过所述数据中每两个相邻数据之间的中位数计算分裂点的数组。

对于本发明实施例,为了使待进行计算的数据划分成不同的数组,步骤205中,首先将变量信息中的各个数据进行排序,所述预置顺序为从小到大顺序,对变量信息中的数据进行排序,然后划分分裂点,得到多个数组。本发明实施例中,划分数组的方法可以为将排序后的数据,按照每两个相邻的值计算中位数,将这个中位数作为一个分裂点,得到多个数组,其中,若中位数相同,则将相同中位数对应的数据划分为一组,共用一个分裂点。

例如,多个变量信息中对应的数据按照从小到大的顺序排序后分别为1,2,3,…,100,根据每两个相邻的数据计算的中位数得到的分裂点分别为1.5,2.5,3.5,…,99.5。

206、计算所述数组中分裂点的柯尔莫可洛夫-斯米洛夫检验ks值,并将ks值最大的分裂点确定为所述数组中的最终分裂点。

对于本发明实施例,为了对多个分裂点进行数量简化,分别对每个分裂点计算柯尔莫可洛夫-斯米洛夫检验ks值,将ks值最大的分裂点确定为数组中的最终分裂点。

例如,计算得到的分裂点为1.5,2.5,3.5,…,99.5,通过计算ks值,得到每个分裂点的ks值为0.12,0.14,0.08,0.23,…0.12,从中找出ks值的最大值0.23,根据ks值0.23对应的分裂点为33.5,即将33.5确定为最终分裂点,对应的1到33为一组,34到100为一组。

需要说明的是,ks值是kolmogorov–smirnovtest值,公式为ks=max(tpr-fpr),即tpr与fpr两条曲线的最大间隔距离,tpr即正样本,tpr=tp/(tp+fn),即正样本预测结果数/正样本实际数。fpr即负样本,fpr=fp/(tn+fp),即被预测为正的负样本结果数/负样本实际数。通过ks值选出来的分类点是该变量最能分开正负样本的分界点,利用best-ks方法做第一次特征分箱。同时基于ks值可以做特征选择,ks值>0.2的特征变量可作为用于建模的变量,本发明实施例不做具体限定。

207、按照迭代方式计算所述数组中符合预设停止分裂条件的所有最终分裂点。

对于本发明实施例,为了对步骤206中得到的最终分裂点对应的数组进一步的划分分裂点,以便得到多个数组,利用迭代方式反复对已经划分最终分裂点的数组执行步骤205至206的步骤,直至数组的个数到达预设停止分裂条件,所述预设停止分裂条件为当再次分裂的数组的个数小于或等于总数组个数的百分之五,则停止分裂,得到所有数组的最终分裂点。例如,当初始的变量信息中有100个数据,未分裂前总数组为100,预设停止分裂条件即为分裂数组最多为20组,存在19个分裂点,本发明实施例不做具体限定。

208、按照预设数组个数通过信息价值iv计算公式计算所述最终分裂点中的最优分裂点,将所述最优分裂点划分出的数据对应的变量信息确定为进行变量划分选取后的变量信息。

对于本发明实施例,为了对即将进行模型训练的输入进行优化,需要按照预设数组个数计算出最终分裂点汇总的最优分裂点。所述预设数组个数一般可以设置为预设停止分裂条件的一半,如预设停止分裂条件即为分裂数组最多为20组,则预设数组个数即为10,本发明实施例不做具体限定。例如,步骤207中分裂数组最多为20组,则确定的分箱为10组,即从从19个分裂点中选择9个分裂点,即c19中取9,具体的选择方法可以为那么从这些组合中分别计算相应的iv值,按照从大到小排序后的iv值对应的分裂点即为最优的分裂点组合。

需要说明的是,iv值为informationvalue,通过iv值做二次有监督分箱,例如,用best-ks得到19个分裂点,即20个分组,那么如果从19个分裂点中选择9个分裂点组成10个分组,第i个分组的iv值如下:ivi=(pyi-pni)*woei,woei为证据权重,pyi是这个组中响应客户占所有样本中所有响应客户的比例,pni是这个组中未响应客户占样本中所有未响应客户的比例;这9个分裂点组成的10组分箱对应的iv值如下:19个分裂点任选9个,对应的iv值最大的9个分裂点组合,就是最终的分箱方法。

209、通过预先建立的征信违约风险评估模型计算变量划分选取后的变量信息的征信违约风险评估值。

本步骤与图1所示的步骤103方法相同,在此不再赘述。

210、采集用户的信用行为评分。

对于本发明实施例,为了进一步的验证计算出的征信违约风险评估值的准确性,通过采集用户的信用行为评分进行校验。所述用户信用行为评分为工作人员根据以往的用户信用行为进行的人为打分,并存储在数据库中,以便系统进行采集。一般的,若用户还款准时,则信用行为评分都会很高,不同点在于还款时间的差距,例如,还款前一天还款则评为80分,还款前5天还款则评为90分等,相对的,60分以下则代表信用行为差,拖欠时间越长,评分越少,本发明实施例不做具体限定。

211、判断所述征信违约风险评估值与所述信用行为评分的差是否超过预设阈值。

对于本发明实施例,若计算出的征信违约风险评估值与采集的信用行为评分的差值过大,则说明计算出的征信违约风险评估值不准确,需要调整计算方式。另外,为了提高对计算征信违约风险评估值的准确性,预设阈值可以设定为较小的数值,如5、10等,本发明实施例不做具体限定。

212、若所述征信违约风险评估值与所述信用行为评分的差值超过预设阈值,则更新所述逻辑回归模型中的模型参数以及更新所述变量划分选取步骤中的变量选取。

对于本发明实施例,当计算出的征信违约风险评估值不够准确时,为了进一步在的将计算方式进行提高准确性的调整,需要对逻辑回归模型中的模型参数进行更新,并更新变量划分选取步骤中的变量选取,即更新步骤205-208中的变量选取。

对于本发明实施例,步骤212具体可以为:根据所述差值超出预设阈值的数值选取预设模型参数更新策略,并根据所述预设模型参数更新策略对所述逻辑回归模型中的模型参数进行更新;根据所述差值超出预设阈值的数值选取预设变量选取策略,并根据所述变量选取策略调整所述变量划分选取步骤中的变量选取。

具体的,当征信违约风险评估值与信用行为评分的差值超出预设阈值,即说明需要进行模型参数的更新,以及变量选取的更新,因此,本发明实施例中,可以根据差值超出的具体数值选择具体的预设模型参数更新策略,以及预设变量选取策略。例如,差值超出预设阈值的几倍以内,则预设模型参数更新策略为在原有的模型参数基础上增加几,如三倍以内,则模型参数增加3;再如,差值超出预设阈值多少,则将预设停止分裂条件中当再次分裂的数组的个数小于或等于总数组个数的百分数加多少,本发明实施例不做具体限定。

213、统计预设时间间隔内不同用户的征信违约风险评估值,将大于预设异常征信违约风险评估值的征信违约风险评估值对应的用户存储至征信违约风险黑名单中,并进行报警。

对于本发明实施例,为了及时向发放信用卡的部门分开用户的信用情况,需要按照预设时间间隔统计不同用户的征信违约风险评估值,若征信违约风险评估值大于预先设定的预设异常征信违约风险评估值,则说明这个用户存在违约风险,需要记录至违约风险黑名单中,以便用户在申请信用产品时,进行严格审核。其中,所述预设时间间隔与预设异常征信违约风险评估值的数值为工作人员预先设定的数值,本发明实施例不做具体限定。

本发明提供了另一种征信违约风险的评估方法,本发明实施例通过对征信信息、基本信息、贷款记录信息进行数据量化处理,利用特征分箱方式对数据量化后的变量信息进行变量划分选取,将选取后的变量作为征信违约风险评估模型的输入,计算征信违约风险评估值,实现征信违约风险的自动评估,避免人工评估带来的人为误差,提高征信违约风险评估的效率,大大降低了用户的欺诈与违约的风险。

进一步的,作为对上述图1所示方法的实现,本发明实施例提供了一种征信违约风险的评估装置,如图3所示,该装置包括:获取单元31、选取单元32、计算单元33。

获取单元31,用于获取用户的征信信息、基本信息、贷款记录信息,并对所述征信信息、所述基本信息、所述贷款记录信息中的变量信息进行数据量化处理;所述获取单元31为征信违约风险的评估装置执行获取用户的征信信息、基本信息、贷款记录信息,并对所述征信信息、所述基本信息、所述贷款记录信息中的变量信息进行数据量化处理的程序模块。

选取单元32,用于采用特征分箱方式对进行数据量化处理后的变量信息进行变量划分选取,所述特征分箱用于将连续的变量信息进行离散化;所述选取单元32为征信违约风险的评估装置执行采用特征分箱方式对进行数据量化处理后的变量信息进行变量划分选取的程序模块。

计算单元33,用于通过预先建立的征信违约风险评估模型计算变量划分选取后的变量信息的征信违约风险评估值,所述征信违约风险评估模型为根据变量信息预测征信违约风险评估值的逻辑回归模型。所述计算单元33为征信违约风险的评估装置执行通过预先建立的征信违约风险评估模型计算变量划分选取后的变量信息的征信违约风险评估值的程序模块。

本发明提供了一种征信违约风险的评估装置,与现有国内大多数银行的信用卡部门采取人工审批作业形式相比,本发明实施例通过对征信信息、基本信息、贷款记录信息进行数据量化处理,利用特征分箱方式对数据量化后的变量信息进行变量划分选取,将选取后的变量作为征信违约风险评估模型的输入,计算征信违约风险评估值,实现征信违约风险的自动评估,避免人工评估带来的人为误差,提高征信违约风险评估的效率,大大降低了用户的欺诈与违约的风险。

进一步的,作为对上述图2所示方法的实现,本发明实施例提供了另一种征信违约风险的评估装置,如图4所示,该装置包括:获取单元41、选取单元42、计算单元43、第一判断单元44、填补单元45、确定单元46、建立单元47、采集单元48、第二判断单元49、更新单元410、统计单元411。

获取单元41,用于获取用户的征信信息、基本信息、贷款记录信息,并对所述征信信息、所述基本信息、所述贷款记录信息中的变量信息进行数据量化处理;

选取单元42,用于采用特征分箱方式对进行数据量化处理后的变量信息进行变量划分选取,所述特征分箱用于将连续的变量信息进行离散化;

计算单元43,用于通过预先建立的征信违约风险评估模型计算变量划分选取后的变量信息的征信违约风险评估值,所述征信违约风险评估模型为根据变量信息预测征信违约风险评估值的逻辑回归模型。

进一步地,所述装置还包括:

第一判断单元44,用于判断进行数据量化处理后的变量信息中是否存在缺失变量,所述缺失变量为进行数据量化处理后,变量信息中的数据为不存在的变量;

填补单元45,用于若进行数据量化处理后的变量信息中存在缺失变量,则对所述缺失变量进行缺失值填补处理,将缺失值填补处理后的变量信息确定为进行变量划分选取的变量信息;

确定单元46,用于若进行数据量化处理后的变量信息中不存在缺失变量,则将所述变量信息确定为进行变量划分选取的变量信息。

进一步地,所述选取单元42包括:

划分模块4201,用于对所述变量信息中的数据按照预置顺序进行排序,并通过计算所述数组中每两个相邻数据之间的中位数划分计算分裂点的数组;

第一确定模块4202,用于计算所述数组中分裂点的柯尔莫可洛夫-斯米洛夫检验ks值,并将ks值最大的分裂点确定为所述数组中的最终分裂点;

计算模块4203,用于按照迭代方式计算所述数值中符合预设停止分裂条件的所有最终分裂点;

第二确定模块4204,用于按照预设数组个数通过信息价值iv计算公式计算所述最终分裂点中的最优分裂点,将所述最优分裂点划分出的数据对应的变量信息确定为进行变量划分选取后的变量信息。

进一步地,所述装置还包括:

建立单元47,用于建立逻辑回归模型,并将所述逻辑回归模型确定为征信违约风险评估模型,所述逻辑回归模型中的的输入变量个数与所述变量信息的个数相同,所述逻辑回归模型中的模型参数为可更新的阈值。

进一步地,所述装置还包括:

采集单元48,用于采集用户的信用行为评分;

第二判断单元49,用于判断所述征信违约风险评估值与所述信用行为评分的差是否超过预设阈值;

更新单元410,用于若所述征信违约风险评估值与所述信用行为评分的差值超过预设阈值,则更新所述逻辑回归模型中的模型参数以及更新所述变量划分选取步骤中的变量选取。

进一步地,所述更新单元410,具体用于根据所述差值超出预设阈值的数值选取预设模型参数更新策略,并根据所述预设模型参数更新策略对所述逻辑回归模型中的模型参数进行更新;

所述更新单元410,具体还用于根据所述差值超出预设阈值的数值选取预设变量选取策略,并根据所述变量选取策略调整所述变量划分选取步骤中的变量选取。

进一步地,所述装置还包括:

统计单元411,用于统计预设时间间隔内不同用户的征信违约风险评估值,将大于预设异常征信违约风险评估值的征信违约风险评估值对应的用户存储至征信违约风险黑名单中,并进行报警。

本发明提供了另一种征信违约风险的评估装置,本发明实施例通过对征信信息、基本信息、贷款记录信息进行数据量化处理,利用特征分箱方式对数据量化后的变量信息进行变量划分选取,将选取后的变量作为征信违约风险评估模型的输入,计算征信违约风险评估值,实现征信违约风险的自动评估,避免人工评估带来的人为误差,提高征信违约风险评估的效率,大大降低了用户的欺诈与违约的风险。

根据本发明一个实施例提供了一种存储介质,所述存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的征信违约风险的评估方法。

图5示出了根据本发明一个实施例提供的一种计算机设备的结构示意图,本发明具体实施例并不对计算机设备的具体实现做限定。

如图5所示,该计算机设备可以包括:处理器(processor)502、通信接口(communicationsinterface)504、存储器(memory)506、以及通信总线508。

其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。

处理器502,用于执行程序510,具体可以执行上述征信违约风险的评估方法实施例中的相关步骤。

具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。

处理器502可能是中央处理器cpu,或者是特定集成电路asic(applicationspecificintegratedcircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。

存储器506,用于存放程序510。存储器506可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作:

获取用户的征信信息、基本信息、贷款记录信息,并对所述征信信息、所述基本信息、所述贷款记录信息中的变量信息进行数据量化处理;

采用特征分箱方式对进行数据量化处理后的变量信息进行变量划分选取,所述特征分箱用于将连续的变量信息进行离散化;

通过预先建立的征信违约风险评估模型计算变量划分选取后的变量信息的征信违约风险评估值,所述征信违约风险评估模型为根据变量信息预测征信违约风险评估值的逻辑回归模型。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1