信用风险预测方法、系统、终端及存储介质与流程

文档序号:20514444发布日期:2020-04-24 18:55阅读:199来源:国知局
信用风险预测方法、系统、终端及存储介质与流程

本发明涉及人工智能技术领域,尤其涉及一种信用风险预测方法、系统、终端及计算机可读存储介质。



背景技术:

近年来,随着互联网金融的不断发展,线上p2p贷款市场已经逐渐融入到人类的日常生活中。线上p2p贷款市场提供允许用户之间直接进行借贷交易的便利服务。但这种便利性也为用户尤其是投资者带来了巨大的潜在风险。因此,如何预测借款者的信用风险成为线上p2p贷款市场中亟待解决的问题。

信用评分模型的出现在一定程度上缓解了该问题,但是传统的信用评分模型是基于被允许贷款的用户信息构建的,缺少了其他被拒绝贷款用户的信息,因此该模型对用户的信用风险预测仍然会存在偏差的,其风险预测的准确率低



技术实现要素:

本发明的主要目的在于提出一种信用风险预测方法、系统、终端及计算机可读存储介质,旨在解决现有信用评分模型中对对用户的信用风险的进行预测的准确率低的技术问题。

为实现上述目的,本发明提供一种信用风险预测方法,包括步骤:

采集已发生还款行为的用户的信息作为第一样本,并根据用户的还款行为和信用风险等级间的预设映射关系,标注第一样本的实际信用风险等级;

采集贷款审核未通过的用户信息作为第二样本;

根据多个第一样本和对应的实际信用风险等级对待训练的信用风险预测模型进行训练,获得初步训练的信用风险预测模型;

采用初步训练的信用风险预测模型对第二样本的信用风险等级进行预测,获得第二样本的信用风险预测等级;

将多个第一样本和对应的实际信用风险等级以及多个第二样本和对应的信用风险预测等级,对初步训练的信用风险预测模型进行训练,获得最终的信用分析预测模型。

可选地,所述采集已发生还款行为的用户的信息作为第一样本的步骤包括:

采集已发生还款行为的用户的信息;

对已发生还款行为的用户信息进行中进行敏感信息过滤和/或预处理;

将过滤后和/或预处理后的已发生还款行为的用户信息作为第一样本。

可选地,所述采集贷款审核未通过的用户信息作为第二样本的步骤包括:

采集贷款审核未通过的用户信息;

对贷款审核未通过的用户信息进行中进行敏感信息过滤和/或预处理;

将过滤后和/或预处理后的贷款审核未通过的用户信息作为第二样本。

可选地,若待训练的信用风险预测模型包括至少一个预设的不同分类算法、至少一个预设的不同聚类算法以及待训练的融合算法,所述根据多个第一样本和对应的实际信用风险等级对待训练的信用风险预测模型进行训练,获得初步训练的信用风险预测模型的步骤包括:

将多个第一样本同时分别输入至各预设的分类算法和各预设的聚类算法中,获得各预设分类算法输出的第一分类结果以及各预设聚类算法输出的第一聚类结果,其中各预设分类算法输出的第一分类结果包括各第一样本属于各信用风险等级对应的概率以及各第一样本的信用风险预测等级,各预设聚类算法输出的第一聚类结果包括与预设信用风险等级数量相同数量的簇类、各簇类属于各信用风险等级对应的概率以及各第一样本所属簇类;

根据预设的簇类实际概率矩阵、各第一样本的实际信用风险等级、各预设分类算法输出的第一分类结果以及各预设聚类算法输出的第一聚类结果对待训练的融合算法进行训练,获得初步训练的融合算法。

可选地,所述根据预设的簇类实际概率矩阵、各第一样本的实际信用风险等级、各预设分类算法输出的第一分类结果以及各预设聚类算法输出的第一聚类结果对待训练的融合算法进行训练,获得初步训练的融合算法的步骤包括:

根据各第一样本的实际信用风险等级,构建样本实际概率矩阵;

根据各预设分类算法输出的第一分类结果以及各预设聚类算法输出的第一聚类结果,构建样本预测平均概率矩阵、簇类预测平均概率矩阵、分布矩阵和同属度矩阵;

将预设的簇类实际概率矩阵、样本实际概率矩阵、样本预测平均概率矩阵、簇类预测平均概率矩阵、分布矩阵和同属度矩阵输入至待训练的融合算法中,采用块坐标下降算法获取待训练的融合算法中的初步参数。

可选地,所述根据多个第一样本和对应的实际信用风险等级对待训练的信用风险预测模型进行训练,获得初步训练的信用风险预测模型的步骤还包括:

根据k-十折交叉验证方法以及多个第一样本和对应的实际信用风险等级对待训练的信用风险预测模型进行训练,获得初步训练的信用风险预测模型。

可选地,所述采用初步训练的信用风险预测模型对第二样本的信用风险等级进行预测,获得第二样本的信用风险预测等级的步骤包括:

将多个第二样本输入各预设的分类算法和各预设的聚类算法中,获得各预设分类算法分别输出的第二分类结果以及各预设聚类算法分别输出的第二聚类结果;

将各预设分类算法分别输出的第二分类结果以及各预设聚类算法分别输出的第二聚类结果输入至初步训练的融合算法中,输出各第二样本的信用风险预测等级。

此外,为实现上述目的,本发明还提供一种信用风险预测系统,所述系统包括:

第一采集模块,用于采集已发生还款行为的用户的信息作为第一样本,并根据用户的还款行为和信用风险等级间的预设映射关系,标注第一样本的实际信用风险等级;

第二采集模块,用于采集贷款审核未通过的用户信息作为第二样本;

第一训练模块,用于根据多个第一样本和对应的实际信用风险等级对待训练的信用风险预测模型进行训练,获得初步训练的信用风险预测模型;

预测模块,用于采用初步训练的信用风险预测模型对第二样本的信用风险等级进行预测,获得第二样本的信用风险预测等级;

第二训练模块,用于将多个第一样本和对应的实际信用风险等级以及多个第二样本和对应的信用风险预测等级,对初步训练的信用风险预测模型进行训练,获得最终的信用分析预测模型。

此外,为实现上述目的,本发明还提供一种终端,所述终端包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的信用风险预测方法的步骤。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的信用风险预测方法的步骤。

本发明提出的一种信用风险预测方法、系统、终端及计算机可读存储介质,通过采集已发生还款行为的用户的信息作为第一样本,并根据用户的还款行为和信用风险等级间的预设映射关系,标注第一样本的实际信用风险等级;采集贷款审核未通过的用户信息作为第二样本;根据多个第一样本和对应的实际信用风险等级对待训练的信用风险预测模型进行训练,获得初步训练的信用风险预测模型;采用初步训练的信用风险预测模型对第二样本的信用风险等级进行预测,获得第二样本的信用风险预测等级;将多个第一样本和对应的实际信用风险等级以及多个第二样本和对应的信用风险预测等级,对初步训练的信用风险预测模型进行训练,获得最终的信用分析预测模型。在构建信用分析预测模型时,先使用了被允许贷款的用户信息对模型进行初步训练,再采用被允许贷款的用户信息和被拒绝贷款的用户信息一起共同对模型进行再次训练,获得的模型不仅对符合贷款条件的潜在用户的风险预测准确率高,而且提高了对不符合贷款条件的用户的风险预测的准确率,从而整体提高了模型对用户的信用风险预测准确率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的结构示意图;

图2为本发明信用风险预测方法第一实施例的流程示意图;

图3为本发明信用风险预测方法第一实施例中步骤s30的细化流程示意图;

图4为本发明信用风险预测方法第一实施例中步骤s40的细化流程示意

图5为本发明信用风险预测系统的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

请参照图1,图1为本发明各个实施例中所提供的终端的硬件结构示意图。所述终端包括通信模块01、存储器02及处理器03等部件。本领域技术人员可以理解,图1中所示出的终端还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中,所述处理器03分别与所述存储器02和所述通信模块01连接,所述存储器02上存储有计算机程序,所述计算机程序同时被处理器03执行。

通信模块01,可通过网络与外部设备连接。通信模块01可以接收外部设备发出的数据,还可发送数据、指令及信息至所述外部设备,所述外部设备可以是手机、平板电脑、笔记本电脑和台式电脑等电子设备。

存储器02,可用于存储软件程序以及各种数据。存储器02可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(构建分布矩阵)等;存储数据区可存储根据终端的使用所创建的数据或信息等。此外,存储器02可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器03,是终端的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器02内的软件程序和/或模块,以及调用存储在存储器02内的数据,执行终端的各种功能和处理数据,从而对终端进行整体监控。处理器03可包括一个或多个处理单元;优选的,处理器03可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器03中。

尽管图1未示出,但上述终端还可以包括电路控制模块,电路控制模块用于与市电连接,实现电源控制,保证其他部件的正常工作。

本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

根据上述硬件结构,提出本发明方法各个实施例。

参照图2,在本发明信用风险预测方法的第一实施例中,所述信用风险预测方法包括步骤:

步骤s10,采集已发生还款行为的用户的信息作为第一样本,并根据用户的还款行为和信用风险等级间的预设映射关系,标注第一样本的实际信用风险等级;

在本方案中,采集已发生还款行为的用户的信息作为第一样本,其中用户的还款行为包括准时还款,短延期还款、长延期还款、不还款。终端根据用户的还款行为和信用风险等级间的预设映射关系,对第一样本的实际信用风险等级进行标注,信用风险等级可以设置高、中和低三个等级,也可以设置为1-5的5个等级,本实例不对信用风险等级的设置进行限定。

具体地,所述步骤s10中的所述采集已发生还款行为的用户的信息作为第一样本步骤包括:

步骤s11,采集已发生还款行为的用户的信息;

步骤s12,对已发生还款行为的用户信息进行中进行敏感信息过滤和/或预处理;

步骤s13,将过滤后和/或预处理后的已发生还款行为的用户信息作为第一样本。

由于采集的用户信息可能存在泄露用户的隐私的敏感信息,例如身份证号、姓名、家庭成员等,需要通过采用关键词识别方法自动识别这些敏感信息,并将这些信息进行过滤,即删除。并且为了提高对模型的训练效果,再采用这些信息进行模型训练前,还可以对用户信息进行预处理,这些预处理包括归一化或标准化等,例如,将类别型数据进行onehot变换,数值型数据进行归一化。可以理解数据预处理方法包含但不限定本实例使用的onehot变换与归一化。对已发生还款行为的用户信息进行中进行敏感信息过滤和/或预处理后,就可以直接将过滤后和/或预处理后的已发生还款行为的用户信息作为第一样本。

步骤s20,采集贷款审核未通过的用户信息作为第二样本;

终端采集贷款审核未通过的用户信息作为第二样本,由于这些用户申请贷款过程中审核未通过被拒绝了,故这些用户不存在还款行为,因此第二样本是没有实际风险等级的。

具体地,所述步骤s20包括:

步骤s21,采集贷款审核未通过的用户信息;

步骤s22,对贷款审核未通过的用户信息进行中进行敏感信息过滤和/或预处理;

步骤s23,将过滤后和/或预处理后的贷款审核未通过的用户信息作为第二样本。

由于采集的用户信息可能存在泄露用户的隐私的敏感信息,例如身份证号、姓名、家庭成员等,需要通过采用关键词识别方法自动识别这些敏感信息,并将这些信息进行过滤,即删除。并且为了提高对模型的训练效果,再采用这些信息进行模型训练前,还可以对用户信息进行预处理,这些预处理包括归一化或标准化等,例如,将类别型数据进行onehot变换,数值型数据进行归一化。可以理解数据预处理方法包含但不限定本实例使用的onehot变换与归一化。对被拒绝贷款的用户信息进行中进行敏感信息过滤和/或预处理后,就可以直接将过滤后和/或预处理后的被拒绝贷款的用户信息作为第二样本。

步骤s30,根据多个第一样本和对应的实际信用风险等级对待训练的信用风险预测模型进行训练,获得初步训练的信用风险预测模型;

采用多个第一样本和每个样本对应的实际信用风险等级对待训练的信用风险预测模型进行训练,获得待训练的信用预测模型的初始参数,将具有该初始参数的信用风险预测模型作为初步训练的信用风险预测模型。

具体地,参照图3,图3为本发明一种实施例中若待训练的信用风险预测模型包括至少一个预设的不同分类算法、至少一个预设的不同聚类算法,根据多个第一样本和对应的实际信用风险等级对待训练的信用风险预测模型进行训练,获得初步训练的信用风险预测模型的步骤的流程细化示意图,基于上述实施例,所述步骤s30包括:

步骤s31,将多个第一样本同时分别输入至各预设的分类算法和各预设的聚类算法中,获得各预设分类算法输出的第一分类结果以及各预设聚类算法输出的第一聚类结果,其中各预设分类算法输出的第一分类结果包括各第一样本属于各信用风险等级对应的概率以及各第一样本的信用风险预测等级,各预设聚类算法输出的第一聚类结果包括与预设信用风险等级数量相同数量的簇类、各簇类属于各信用风险等级对应的概率以及各第一样本所属簇类;

当构建的待训练的风险预测模型包括至少一个预设的不同分类算法、至少一个预设的不同聚类算法以及待训练的融合算法,即该风险预测模型是半监督学习模型-基于结合分类算法和聚类算法的半监督学习模型。该风险预测模型采用的分类算法可以为nbc(nativebayesianclassifier,朴素贝叶斯分类)算法、逻辑回归算法、各种决策树算法、svm(supportvectormachine,支持向量机)算法、k最近邻算法、神经网络算法等中的一个或多个;采用的聚类算法可以为k均值聚类算法、k-medoids聚类算法、层次聚类算法、gmm高斯混合模型、图团体检测算法、基于密度的聚类算法等中的一个或多个。该待训练的风险预测模型中预设的各分类算法和各聚类算法都是已经经过训练的,是在构建待训练的风险预测模型前采用多个第一样本进行训练和验证后的分类算法和聚类算法。

终端将多个第一样本同时分别输入至待训练的风险预测模型中的各预设分类算法和各聚类算法中,获得各预设分类算法输出的第一分类结果和各预设聚类算法输出的第一聚类结果。各预设分类算法输出的第一分类结果包括各第一样本属于各信用风险等级对应的概率以及各第一样本的信用风险预测等级,各预设聚类算法输出的第一聚类结果包括与预设信用风险等级数量相同数量的簇类、各簇类属于各信用风险等级对应的概率以及各第一样本所属簇类

步骤s32,根据预设的簇类实际概率矩阵、各第一样本的实际信用风险等级、各预设分类算法输出的第一分类结果以及各预设聚类算法输出的第一聚类结果对待训练的融合算法进行训练,获得初步训练的融合算法。

将预设的簇类实际概率矩阵、各第一样本的实际信用风险等级、各预设分类算法输出的第一分类结果以及各预设聚类算法输出的第一聚类结果对待训练的融合算法进行训练,获得初步训练的融合算法。

其中,预设的簇类实际概率矩阵为:

当i为kl+j时,cij=1,当i不为kl+j时,cij=0,i=1,2,...g,j=1,2,...l,k=0,1...k1+k2,l为预设的信用风险等级数量,g为各预设的分类算法和各预设聚类算法总共划分的簇类总数,一般分类算法是输出每个样本的信用风险预测等级,但在为样本预测信用风险等级时,其实每个分类算法就已经划分了与预设信用风险等级数量相同的簇类,而聚类算法本身就会划分为与预设信用风险等级数量相同的簇类,故k1*l为各预设分类算法划分的簇类总数,k2*l为各预设聚类算法划分的簇类总数,g=k1*l+k2*l,k1和k2为待训练的信用风险预测模型中预设的分类算法数量以及预设的聚类算法数量。

具体地,所述步骤s32包括:

步骤s321,根据各第一样本的实际信用风险等级,构建样本实际概率矩阵;

根据各第一样本的实际信用风险等级,构建样本实际概率矩阵,该样本实际概率矩阵为:

当第i个样本的实际信用风险等级为第j种信用风险等级时,bij=1,当第i个样本的实际信用风险等级不为第j种信用风险等级时,bij=0,i=1,2...o,j=1,2...l,o为输入至待训练风险预测模型中的第一样本的总数。例如,若第5个第一样本的实际信用风险等级为高,而第2种信用风险等级为高,此时b52=1,若第5个第一样本的实际信用风险等级为高,而第2种信用风险等级为不为高,此时b52=0。

步骤s322,根据各预设分类算法输出的第一分类结果以及各预设聚类算法输出的第一聚类结果,构建样本预测平均概率矩阵、簇类预测平均概率矩阵、分布矩阵和同属度矩阵;

根据各预设分类算法输出的第一分类结果以及各预设聚类算法输出的第一聚类结果,构建样本预测平均概率矩阵,所述样本预测平均概率矩阵为:

为第i个样本属于第j类信用风险等级的预测概率平均值,其中为第k1个预设分类算法计算出第i个样本属于第j种信用风险等级的概率,为第k2个预设聚类算法计算出第i个样本属于第j种信用风险等级的概率,o为输入至待训练风险预测模型中的第一样本的总数,l为信用风险等级种类数量,k1为预设分类算法总数,k2为预设聚类算法总数,i=1,2...o,j=1,2...l。

根据各预设分类算法输出的第一分类结果以及各预设聚类算法输出的第一聚类结果,构建簇类预测平均概率矩阵,所述簇类预测平均概率矩阵为:

其中为第k1个分类算法的簇类预测平均概率子矩阵,该簇类预测平均概率子矩阵中是通过先计算第k1个分类算法输出的第一分类结果中信用风险预测等级为第i种的所有样本属于第j种预测信用风险等级的概率的总和,然后将所述总和除以该分类结果种信用风险预测等级为第i种的样本数量得到的概率平均值,例如第5个分类算法输出的第一分类结果中信用风险预测等级为第4种的样本有s1、s2、s3和s4四个样本,而第5个分类算法计算出这四个样本属于信用风险预测等级为第2种的概率值分布为0.12、0.13、0.12、0.11,则第5个分类算法的簇类预测平均概率子矩阵中

为第k2个聚类算法的簇类预测平均概率子矩阵,该矩阵中是第k2个聚类算法输出的聚类结果中第i个簇类属于第j种信用风险等级的概率。

根据各预设分类算法输出的第一分类结果以及各预设聚类算法输出的第一聚类结果,构建簇类分布矩阵,所述分布矩阵为:

其中,为第k1个分类算法对应的分布子矩阵,当第i个样本被第k1个分类算法预测的信用风险预测等级为第j种时,其的值为1,否则为0;

为第k2个聚类算法对应的分布子矩阵,当第i个样本被第k2个聚类算法划分至第j种预测信用风险等级的簇类时,其的值为1,否则为0。

根据各预设分类算法输出的第一分类结果以及各预设聚类算法输出的第一聚类结果,构建同属度矩阵,所述同属度矩阵为:

其中dij为第i个样本与第j个样本被各分类算法预测的信用风险预测等级相同的次数加上被各聚类算法划分为相同簇类的次数,其中当i=j时,dij=(k1+k2)l。例如第一个第一样本s1被3种分类算法分别预测的信用风险预测等级为高、高和中,被2种聚类算法分别划分为信用风险等级为高的簇类和信用风险等级为中的簇类,而第二个第一样本s2被3种分类算法分别预测的信用风险预测等级为低、低和中,被2种聚类算法分别划分为信用风险等级为低的簇类和信用风险等级为中的簇类,此时d12=2。

步骤s323,将预设的簇类实际概率矩阵、样本实际概率矩阵、样本预测平均概率矩阵、簇类预测平均概率矩阵、分布矩阵和同属度矩阵输入至待训练的融合算法中,采用块坐标下降算法获取待训练的融合算法中的初步参数。

将预设的簇类实际概率矩阵、样本实际概率矩阵、样本预测平均概率矩阵、簇类预测平均概率矩阵、分布矩阵和同属度矩阵输入至待训练的融合算法中,采用块坐标下降算法对待训练的融合算法进行求解,获得初步参数,将包括初步参数的融合算法作为初步训练的融合算法。

融合算法为:

其中x,y,z,w为预设的融合算法中的参数,o为输入至待训练风险预测模型中的第一样本的总数,k1为预设的分类算法数量,k2为预设的聚类算法数量,eij为分布矩阵中第i行第j列的元素,dij为同属度矩阵中第i行第j列的元素,分别为样本实际概率矩阵的第i行向量和第j行向量,为预设簇类实际概率矩阵的第j行向量,为样本预测平均概率矩阵中第i行向量,为簇类预测平均概率矩阵的第j行向量。

其训练融合算法的过程就是对融合算法种的对这些参数求解并进行优化。

步骤s40,采用初步训练的信用风险预测模型对第二样本的信用风险等级进行预测,获得第二样本的信用风险预测等级;

获得初步训练的信用风险预测模型后,采用初步训练的信用风险预测模型对多个第二样本的信用风险等级进行初步预测,将初步预测的结果作为各个第二样本的信用风险预测等级。

具体地,参照图4,图4为本发明另一种实施例中采用初步训练的信用风险预测模型对第二样本的信用风险等级进行预测,获得第二样本的信用风险预测等级的步骤的流程细化示意图,基于上述实施例,所述步骤s40包括:

步骤s41,将多个第二样本输入各预设的分类算法和各预设的聚类算法中,获得各预设分类算法分别输出的第二分类结果以及各预设聚类算法分别输出的第二聚类结果;

将多个第二样本输入至初步训练的信用风险预测模型中的各预设的分类算法和各预设的聚类算法中,获得各预设分类算法分别输出的第二分类结果,以及各预设聚类算法分别输出的第二聚类结果。

步骤s42,将各预设分类算法分别输出的第二分类结果以及各预设聚类算法分别输出的第二聚类结果输入至初步训练的融合算法中,输出各第二样本的信用风险预测等级。

然后将第二分类结果和第二聚类结果输入至初步训练的信用风险预测模型中的初步训练的融合算法中,计算出每个第二样本属于不同信用风险预测等级对应的各概率值,然后将该样本的各概率值中最大概率值对应的信用风险预测等级作为该样本的信用风险预测等级。

步骤s50,将多个第一样本和对应的实际信用风险等级以及多个第二样本和对应的信用风险预测等级,对初步训练的信用风险预测模型进行训练,获得最终的信用分析预测模型。

将前面的获得的多个第一样本和对应的实际信用风险等级以及多个第二样本和对应的信用风险预测等级作为初步训练的信用风险预测模型的训练样本,对初步训练的信用风险预测模型进行训练,其具体过程和前述步骤s30的相同,在此不对其进行赘述,最终获得最终的信用分析预测模型。

本实施例通过采集已发生还款行为的用户的信息作为第一样本,并根据用户的还款行为和信用风险等级间的预设映射关系,标注第一样本的实际信用风险等级;采集贷款审核未通过的用户信息作为第二样本;根据多个第一样本和对应的实际信用风险等级对待训练的信用风险预测模型进行训练,获得初步训练的信用风险预测模型;采用初步训练的信用风险预测模型对第二样本的信用风险等级进行预测,获得第二样本的信用风险预测等级;将多个第一样本和对应的实际信用风险等级以及多个第二样本和对应的信用风险预测等级,对初步训练的信用风险预测模型进行训练,获得最终的信用分析预测模型。在构建信用分析预测模型时,先使用了被允许贷款的用户信息对模型进行初步训练,再采用被允许贷款的用户信息和被拒绝贷款的用户信息一起共同对模型进行再次训练,获得的模型不仅对符合贷款条件的潜在用户的风险预测准确率高,而且提高了对不符合贷款条件的用户的风险预测的准确率,从而整体提高了模型对用户的信用风险预测准确率。

进一步地,根据本申请信用风险预测方法的第一实施例提出本申请信用风险预测方法的第二实施例,在本实施例中,所述步骤s30,还包括:

步骤s33,根据k-十折交叉验证方法以及多个第一样本和对应的实际信用风险等级对待训练的信用风险预测模型进行训练,获得初步训练的信用风险预测模型。

本实施例中,将多个第一样本分成十组(一般是均分)样本子集,将每组样本子集分别做一次验证样本集,其余的k-1组样本子集作为训练样本集,这样会得到10对训练样本集-验证样本集,然后采用每个训练样本集对对待训练的信用风险预测模型进行训练,获得对应的候选信用风险预测模型稳定性进行评价,获得其稳定性评价结果,然后根据各候选信用风险预测模型对应的稳定性评价结果,从中选择稳定性能结果最佳的信用风险预测模型作为初步训练的信用风险预测模型。采用k-v交叉验证法可以有效的避免欠拟合以及过拟合的发生,最后得到模型也比较具有说服性。

本发明还提出一种信用风险预测系统,所述系统包括:

第一采集模块10,用于采集已发生还款行为的用户的信息作为第一样本,并根据用户的还款行为和信用风险等级间的预设映射关系,标注第一样本的实际信用风险等级;

第二采集模块20,用于采集贷款审核未通过的用户信息作为第二样本;

第一训练模块30,用于根据多个第一样本和对应的实际信用风险等级对待训练的信用风险预测模型进行训练,获得初步训练的信用风险预测模型;

预测模块40,用于采用初步训练的信用风险预测模型对第二样本的信用风险等级进行预测,获得第二样本的信用风险预测等级;

第二训练模块50,用于将多个第一样本和对应的实际信用风险等级以及多个第二样本和对应的信用风险预测等级,对初步训练的信用风险预测模型进行训练,获得最终的信用分析预测模型。

可选地,所述第一采集模块10还包括:

第一采集单元,用于采集已发生还款行为的用户的信息;

第一处理单元,用于对已发生还款行为的用户信息进行中进行敏感信息过滤和/或预处理;

第一样本生成单元,用于将过滤后和/或预处理后的已发生还款行为的用户信息作为第一样本。

可选地,所述第二采集模块20还包括:

第二采集单元,用于采集贷款审核未通过的用户信息;

第二处理单元,用于对贷款审核未通过的用户信息进行中进行敏感信息过滤和/或预处理;

第二样本生成单元,用于将过滤后和/或预处理后的贷款审核未通过的用户信息作为第二样本。

可选地,若待训练的信用风险预测模型包括至少一个预设的不同分类算法、至少一个预设的不同聚类算法以及待训练的融合算法,所述第一训练模块30包括:

第一输入单元,用于将多个第一样本同时分别输入至各预设的分类算法和各预设的聚类算法中,获得各预设分类算法输出的第一分类结果以及各预设聚类算法输出的第一聚类结果,其中各预设分类算法输出的第一分类结果包括各第一样本属于各信用风险等级对应的概率以及各第一样本的信用风险预测等级,各预设聚类算法输出的第一聚类结果包括与预设信用风险等级数量相同数量的簇类、各簇类属于各信用风险等级对应的概率以及各第一样本所属簇类;

第一训练单元,用于根据预设的簇类实际概率矩阵、各第一样本的实际信用风险等级、各预设分类算法输出的第一分类结果以及各预设聚类算法输出的第一聚类结果对待训练的融合算法进行训练,获得初步训练的融合算法。

可选地,所述第一训练单元包括:

第一构建子单元,用于根据各第一样本的实际信用风险等级,构建样本实际概率矩阵;

第二构建子单元,用于根据各预设分类算法输出的第一分类结果以及各预设聚类算法输出的第一聚类结果,构建样本预测平均概率矩阵、簇类预测平均概率矩阵、分布矩阵和同属度矩阵;

获取子单元,用于将预设的簇类实际概率矩阵、样本实际概率矩阵、样本预测平均概率矩阵、簇类预测平均概率矩阵、分布矩阵和同属度矩阵输入至待训练的融合算法中,采用块坐标下降算法获取待训练的融合算法中的初步参数。

可选地,所述第一训练模块30还包括:

第二训练单元,用于根据k-十折交叉验证方法以及多个第一样本和对应的实际信用风险等级对待训练的信用风险预测模型进行训练,获得初步训练的信用风险预测模型。

可选地,所述预测模块40包括:

第二输入单元,用于将多个第二样本输入各预设的分类算法和各预设的聚类算法中,获得各预设分类算法分别输出的第二分类结果以及各预设聚类算法分别输出的第二聚类结果;

输出单元,用于将各预设分类算法分别输出的第二分类结果以及各预设聚类算法分别输出的第二聚类结果输入至初步训练的融合算法中,输出各第二样本的信用风险预测等级。

本发明还提出一种计算机可读存储介质,其上存储有计算机程序。所述计算机可读存储介质可以是图1的信用风险预测终端中的存储器02,也可以是如rom(read-onlymemory,只读存储器)/ram(randomaccessmemory,随机存取存储器)、磁碟、光盘中的至少一种,所述计算机可读存储介质包括若干信息用以使得信用风险预测终端执行本发明各个实施例所述的方法。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1