一种贷款连续逾期的预测方法及装置与流程

文档序号:21699344发布日期:2020-07-31 22:59阅读:254来源:国知局
一种贷款连续逾期的预测方法及装置与流程
本发明涉及人工智能
技术领域
,具体涉及一种贷款连续逾期的预测方法及装置。
背景技术
:随着用户消费习惯的逐渐改变,贷款量不断增长,贷款的逾期风险也在不断增加。因此,提供贷款的一方需要对贷款逾期风险进行管控。目前,行业内在贷后管理依赖专家经验进行决策,主观因素影响较大。对贷款的监控指标单一,主要是逾期天数、逾期金额等事后指标,导致不良贷款发现不及时,贷款事后风控管理被动。技术实现要素:针对现有技术中的问题,本发明实施例提供一种贷款连续逾期的预测方法及装置,能够至少部分地解决现有技术中存在的问题。一方面,本发明提出一种贷款连续逾期的预测方法,包括:获取客户的贷款逾期评估信息;对所述贷款逾期评估信息进行预处理,获得贷款特征数据;将所述贷款特征数据输入至贷款连续逾期预测模型,输出所述客户的贷款连续逾期的预测结果;其中,所述贷款连续逾期预测模型是基于贷款逾期评估样本数据以及预先确定的贷款连续逾期标签训练后获得的。另一方面,本发明提供一种贷款连续逾期的预测装置,包括:获取单元,用于获取客户的贷款逾期评估信息;预处理单元,用于对所述贷款逾期评估信息进行预处理,获得贷款特征数据;预测单元,用于将所述贷款特征数据输入至贷款连续逾期预测模型,输出所述客户的贷款连续逾期的预测结果;其中,所述贷款连续逾期预测模型是基于贷款逾期评估样本数据以及预先确定的贷款连续逾期标签训练后获得的。再一方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述贷款连续逾期的预测方法的步骤。又一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述贷款连续逾期的预测方法的步骤。本发明实施例提供的贷款连续逾期的预测方法及装置,获取客户的贷款逾期评估信息,对贷款逾期评估信息进行预处理,获得贷款特征数据,将贷款特征数据输入至贷款连续逾期预测模型,输出客户的贷款连续逾期的预测结果,能够提高贷款连续逾期预测的准确性。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1是本发明一实施例提供的贷款连续逾期的预测方法的流程示意图。图2是本发明另一实施例提供的贷款连续逾期的预测方法的流程示意图。图3是本发明又一实施例提供的贷款连续逾期的预测方法的流程示意图。图4是本发明一实施例提供的贷款连续逾期的预测装置的结构示意图。图5是本发明另一实施例提供的贷款连续逾期的预测装置的结构示意图。图6是本发明又一实施例提供的贷款连续逾期的预测装置的结构示意图。图7是本发明一实施例提供的电子设备的实体结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。图1是本发明一实施例提供的贷款连续逾期的预测方法的流程示意图,如图1所示,本发明实施例提供的贷款连续逾期的预测方法,包括:s101、获取客户的贷款逾期评估信息;具体地,客户的贷款逾期评估信息是用来反映客户的贷款是否会连续逾期的信息。客户的贷款逾期评估信息根据来源不同可以包括年龄、性别、受教育程度、行业、贷款产品等能够直接获取的信息,还可以包括贷款账龄占贷款期限比例、当前期数内资金流入金额、当期流入金额与还款金额差值等需要经过数据处理获取的信息。服务器可以获取到所述客户的贷款逾期评估信息。所述客户的贷款逾期评估信息包括的信息数量根据实际需要进行设置,本发明实施例不做限定。可理解的是,当客户的贷款逾期评估信息中存在数据缺失时,可以通过随机森林算法、平均值法或者相似客户的数据进行补缺,根据实际需要进行选择,本发明实施例不做限定。本发明实施例提供的贷款连续逾期的预测方法的执行主体包括但不限于服务器。例如,表1为客户婚姻状况信息表,如表1所示,客户e的婚姻状况为未知,由统计可知,婚姻状况为已婚的客户数量大于未婚的客户数量,因此对于缺失婚姻状况的客户e采用该列数据取较多类别值补全,补全客户e的婚姻状况为已婚。表1客户婚姻状况信息表客户婚姻状况a已婚b已婚c已婚d未婚e未知s102、对所述贷款逾期评估信息进行预处理,获得贷款特征数据;具体地,在获得所述贷款逾期评估信息之后,所述服务器会对所述贷款逾期评估信息进行预处理,将所述贷款逾期评估信息转换成数值数据,获得贷款特征数据。其中,对于金融产品总额、各类金融产品余额等信息,可以直接保留数值;对于性别、行业、受教育程度等信息可以通过one-hot编码等方式转换成数值数据。所述贷款逾期评估信息转换成数值数据的具体过程根据实际需要进行设置,本发明实施例不做限定。例如,对于性别,可以将男性对应的数值设置为1,可以将女性对应的数值设置为0。例如,客户的受教育程度,可以采用one-hot编码转换成数值数据。客户a的受教育程度为高中,客户b的受教育程度为大学本科,客户a和客户b的受教育程度转换成的数值数据如表2所示。表2客户的受教育程度的数值数据客户未上学小学初中高中大学专科大学本科研究生a0001000b0000010例如,对于客户的贷款账龄和贷款期限,可以转换成贷款账龄占贷款期限比例。如表3所示,客户a的贷款账龄为12期,贷款期限为360期,那么客户a的贷款账龄占贷款期限比例为12/360=0.0333。客户b的贷款账龄为16期,贷款期限为24期,那么客户b的贷款账龄占贷款期限比例为16/24=0.6667。表3贷款账龄占贷款期限比例客户贷款账龄贷款期限贷款账龄占贷款期限比例a123600.0333b16240.6667s103、将所述贷款特征数据输入至贷款连续逾期预测模型,输出所述客户的贷款连续逾期的预测结果;其中,所述贷款连续逾期预测模型是基于贷款逾期评估样本数据以及预先确定的贷款连续逾期标签训练后获得的。具体地,所述服务器在获得所述贷款特征数据之后,将所述贷款特征数据输入至贷款连续逾期预测模型中,经过所述贷款连续逾期预测模型的处理,可以输出所述客户的贷款连续逾期的预测结果,所述贷款连续逾期的预测结果为连续逾期或者不会连续逾期,所述贷款连续逾期的预测结果为连续逾期表明所述客户存在较高的贷款逾期风险,需要加强对所述客户的风险管控。所述贷款逾期预测结果为不会连续逾期表明所述客户贷款逾期风险较低。其中,所述贷款连续逾期预测模型是基于贷款逾期评估样本数据以及预先确定的贷款连续逾期标签训练后获得的。所述贷款逾期评估样本数据中每个评估样本数据都对应一个贷款连续逾期标签。所述贷款连续逾期预测模型用于对某一项贷款的客户是否会存在贷款连续逾期情况进行预测。例如,所述贷款连续逾期标签是基于某一项贷款连续3期的历史贷款数据获得的。如表4所示,获取编号为1-8的贷款x的连续三个月的贷款数据。设定贷款连续逾期标签训是连续两期逾期,对于编号为1的贷款数据,由于已经连续3期逾期,即到设定的当前月时已经连续2期逾期,舍弃编号1对应的评估样本数据。对于编号为2的贷款数据,由于到设定的当前月时已经连续2期逾期,舍弃编号2对应的评估样本数据。对于编号为5的贷款数据,由于从设定的当前月开始连续2期逾期,设置编号5对应的评估样本数据对应的贷款连续逾期标签为1,表明连续逾期2次。对于剩余的编号的贷款数据,由于没有存在连续2期逾期的情况,设置剩余的编号对应的评估样本数据对应的贷款连续逾期标签为0,表明没有连续逾期2次。通过贷款连续逾期标签对应的贷款期数对应的客户的相关信息,可以获得贷款连续逾期标签对应的评估样本数据。表4贷款连续逾期标签编号前一个月是否逾期当前月是否逾期下一个月是否逾期标签1111丢弃2110丢弃310104100050111601007000080010本发明实施例提供的贷款连续逾期的预测方法,获取客户的贷款逾期评估信息,对贷款逾期评估信息进行预处理,获得贷款特征数据,将贷款特征数据输入至贷款连续逾期预测模型,输出客户的贷款连续逾期的预测结果,能够提高贷款连续逾期的预测的准确性。此外,通过对贷款连续逾期进行预测,滤除偶尔逾期一次的情况,能更准确的预测风险较高的贷款。图2是本发明另一实施例提供的贷款连续逾期的预测方法的流程示意图,如图2所示,在上述各实施例的基础上,进一步地,基于贷款逾期评估样本数据以及预先确定的贷款连续逾期标签训练所述贷款连续逾期预测模型的步骤包括:s201、对所述贷款逾期评估样本数据进行预处理,获得样本特征集,并将所述样本特征集划分为训练集、验证集和测试集;具体地,可以收集获得某项贷款的连续n个月的贷款数据,对上述连续n个月的贷款数据进行打标签,获得第一数量个标签,基于每个标签对应的贷款期数的客户相关信息可以获得第一数量个评估样本数据,每个评估样本数据对应一个贷款连续逾期标签,所述第一数量个评估样本数据构成了所述贷款逾期评估样本数据。所述服务器对所述贷款逾期评估样本数据进行预处理,获得样本特征集,所述样本特征集包括第一数量个样本特征数据。所述服务器将所述样本特征集划分为训练集、验证集和测试集,例如将所述第一数量的70%的样本特征数据归为所述训练集,将所述第一数量的20%的样本特征数据归为所述验证集,将剩余的样本特征数据归为所述测试集。其中,n的具体数值根据实际需要进行设置,本发明实施例不做限定。所述贷款逾期评估样本数据的预处理过程,与所述贷款逾期评估信息预处理的过程类似,此处不进行赘述。可理解的是,每个评估样本数据包括的信息的类别与所述客户的贷款逾期评估信息包括的信息的类别相同。例如,收集获得贷款y在预测时间点前连续8期的贷款数据,以其中每连续三期的贷款数据,打贷款连续逾期2期的标签,可以获得预设时间点前第2期至第7期连续6期的贷款中每期贷款对应的连续逾期2期的标签,以每个连续逾期2期的标签对应的贷款期数的客户的相关信息,获得一个评估样本数据,假设总共获得了第二数量个评估样本数据,所述第二数量个评估样本数据构成了贷款y的贷款逾期评估样本数据。s202、根据所述训练集、所述训练集对应的贷款连续逾期标签以及梯度提升机算法模型,训练获得待确定贷款连续逾期预测模型;具体地,所述服务器将所述训练集中的样本特征数据以及样本特征数据对应的贷款连续逾期标签输入至梯度提升机算法模型,得到样本特征数据的预测结果,然后通过样本特征数据的预测结果与样本特征数据对应的贷款连续逾期标签之间的残差对所述梯度提升机算法模型进行修正,不断循环迭代,直到迭代次数达到预设次数,获得待确定贷款连续逾期预测模型。其中,所述预设次数根据实际需要进行设置,本发明实施例不做限定。梯度提升机(gradientboostingmachine,简称gbm)算法是一种集成算法,将多个弱学习器集成在一起形成一个强学习器。在梯度提升机算法模型的训练过程中,首先使用默认的参数来构建初始树模型f1(x),对于训练数据(xi,yi),xi为样本特征数据,yi为样本特征数据对应的贷款连续逾期标签,将xi输入到初始树模型f1(x)输出预测值为y′i,则y′i=f1(xi)。yi和y′i之间有一个残差yi-y′i,即l(yi,f1(xi))=yi-y′i,l(y,y′i)为损失函数。为了通过训练集找到最优的树模型f(x),使得损失函数l(y,f(x))最小。通过增加估计器去拟合残差来提高整体模型的效果,即f2(x)=f1(x)+h(x),f2(x)为新的树模型,h(x)为增加的估计器。模型效果最好时h(x)应满足h(x)=y-f(x),因此将h(x)与残差y-f1(x)拟合,这样不断去拟合前一次树模型残差,修正前一次得到的树模型,经过m次迭代,我们得到最终的树模型f(x)。其中,使用损失函数的负梯度在当前树模型的值作为残差的近似值。为了防止欠拟合和过拟合,迭代次数m一般选择一个适中的值,比如为100,根据实际经验确定,本发明实施例不做限定。s203、根据所述验证集以及所述验证集对应的贷款连续逾期标签对所述待确定贷款连续逾期预测模型进行验证;具体地,所述服务器获得所述待确定贷款连续逾期预测模型之后,可以通过所述验证集验证所述待确定贷款连续逾期预测模型的效果,将所述验证集的样本特征数据以及样本特征数据对应的贷款连续逾期标签输入至所述待确定贷款连续逾期预测模型,获得所述验证集的每个样本特征数据的预测结果,基于所述验证集的每个样本特征数据的预测结果以及每个样本特征数据对应的贷款连续逾期标签对所述待确定贷款连续逾期预测模型进行验证。如果所述待确定贷款连续逾期预测模型通过验证,那么再使用所述测试集对所述待确定贷款连续逾期预测模型进行测试;如果所述待确定贷款连续逾期预测模型没有通过验证,那么调整所述梯度提升机算法模型的各项参数,重新进行模型训练。s204、若判断所述待确定贷款连续逾期预测模型通过验证,则根据所述测试集以及测试集对应的贷款连续逾期标签对所述待确定贷款连续逾期预测模型进行测试;具体地,所述服务器会判断所述待确定贷款连续逾期预测模型是否通过验证,如果所述待确定贷款连续逾期预测模型通过验证,那么将所述测试集中的每个样本特征数据输入至所述待确定贷款连续逾期预测模型,获得所述测试集中的每个样本特征数据的预测结果,将所述测试集中的每个样本特征数据的预测结果与每个样本特征数据对应的贷款连续逾期标签进出比较,可以获得所述待确定贷款连续逾期预测模型预测的准确率,如果所述待确定贷款连续逾期预测模型预测的准确率大于等于准确率阈值,那么所述待确定贷款连续逾期预测模型通过测试,如果所述待确定贷款连续逾期预测模型预测的准确率小于准确率阈值,那么所述待确定贷款连续逾期预测模型不能通过测试。其中,所述准确率阈值根据实际经验进行设置,本发明实施例不做限定。例如,所述测试集有20个样本特征数据,将上述20个样本特征数据输入至所述待确定贷款连续逾期预测模型获得20个样本特征数据的预测结果,将20个样本特征数据的预测结果与20个样本特征数据对应的贷款连续逾期标签分别进行比较,结果其中18个样本特征数据的预测结果与对应的贷款连续逾期标签相同,那么所述待确定贷款连续逾期预测模型预测的准确率为18/20=90%。s205、若判断获知所述待确定贷款连续逾期预测模型通过测试,则将所述待确定贷款连续逾期预测模型作为所述贷款连续逾期预测模型。具体地,所述服务器在对所述待确定贷款连续逾期预测模型进行测试之后,会判断所述待确定贷款连续逾期预测模型是否通过测试,如果所述待确定贷款连续逾期预测模型通过测试,那么将所述待确定贷款连续逾期预测模型作为所述贷款连续逾期预测模型。图3是本发明又一实施例提供的贷款连续逾期的预测方法的流程示意图,如图3所示,在上述各实施例的基础上,进一步地,所述根据所述验证集以及所述验证集对应的贷款连续逾期标签对所述待确定贷款连续逾期预测模型进行验证包括:s2031、将所述验证集的各个样本特征数据分别输入至所述待确定贷款连续逾期预测模型,输出每个样本特征数据的预测结果;具体地,所述服务器将所述验证集的每个样本特征数据输入至所述待确定贷款连续逾期预测模型,可以输出所述验证集的每个样本特征数据的预测结果。s2032、根据所述验证集的各个样本特征数据的预测结果以及各个样本特征数据对应的贷款连续逾期标签,获得roc曲线;具体地,所述服务器对比所述验证集的每个样本特征数据的预测结果以及每个样本特征数据对应的贷款连续逾期标签,根据对比的结果可以绘制出roc(receiveroperatingcharacteristic)曲线。表5混淆数量表例如,所述贷款连续逾期标签,以1表示连续逾期,0表示没有连续逾期。所述预测结果中,以1表示连续逾期,以0表示没有连续逾期。假设所述验证集包括40个样本特征数据,对比40个样本特征数据的预测结果和对应的贷款连续逾期标签,确定真阳数量、伪阳数量、伪阴数量和真阴数量如表5所示,真阳数量为5、伪阳数量为2、伪阴数量2和真阴数量31,那么计算出真阳率=5/(5+2)=0.714,伪阳率=2/(2+31)=0.061,所述服务器根据上述真阳率和伪阳率可以绘制出roc曲线。s2033、根据roc曲线对应的auc值对所述待确定贷款连续逾期预测模型进行验证。具体地,所述服务器在绘制出roc曲线之后,计算roc曲线与坐标轴围成的面积可获得auc(areaundercurve)值,如果auc值与1之间差值的绝对值小于预设值,那么所述待确定贷款连续逾期预测模型通过验证,如果auc值与1之间差值的绝对值大于等于预设值,那么所述待确定贷款连续逾期预测模型不通过验证。在上述各实施例的基础上,进一步地,所述贷款逾期评估信息包括客户基本信息、客户资产信息、客户贷款信息、交易信息、风险信息和同类客户信息六类信息。具体地,所述客户的贷款逾期评估信息可以分为六类:客户基本信息、客户资产信息、客户贷款信息、交易信息、风险信息和同类客户信息。其中,客户基本信息包括年龄、性别、受教育程度、婚姻状况、行业等信息;客户资产信息包括当前客户持有的金融产品总额、各类别金融产品余额等信息;客户贷款信息包括各类贷款产品余额、贷款账龄占贷款期限比例等信息;交易信息包括客户还款账户当前月份的资金流入/出笔数、资金流入/流出总金额等信息;风险信息包括客户当前未还清贷款数占总贷款数比例、当前贷款余额占金融资产比值、当前贷款重组笔数等信息;同类客户信息包括批量申请、批量逾期、资金来源账户相同等信息,同类客户信息用于考量客户是否存在批量虚假贷款的贷款特征,对于同一个开发商下的贷款客户,可能会存在虚假贷款的情况。上述六类信息从不同的维度提供贷款是否逾期的信息,增加了贷款逾期特征的全面性,利用上述六类信息进行贷款连续逾期预测模型的训练,能够提高贷款连续逾期预测模型的准确性,进而提高了对贷款连续逾期预测的准确性。下面以一个具体的实施例来说明本发明实施例提供的贷款连续逾期的预测方法的实现过程。某商业银行甲现在要对某房产贷款的客户进行贷款连续逾期两次的预测。首先,需要建立某房产贷款的连续逾期两次预测模型,收集某房产贷款过去连续八个月所有客户的贷款数据,参照表4进行打标签并丢弃不能打标签的数据,假设获q个标签,然后收集每个连续逾期两次的标签对应的贷款期数的客户的客户基本信息、客户资产信息、客户贷款信息、交易信息、风险信息和同类客户信息六类信息,共获得q个评估样本数据作为某房产贷款的贷款逾期评估样本数据。所述服务器对某房产贷款的贷款逾期评估样本数据进行预处理,获得某房产贷款的样本特征集,某房产贷款的样本特征集包括q个样本特征数据,将q个样本特征数据划分到训练集、验证集和测试集中,训练集包括0.7q个样本特征数据,验证集包括0.2q个样本特征数据,测试集包括0.1q个样本特征数据。根据0.7q个样本特征数据、0.7q个样本特征数据对应的贷款连续逾期两次的标签以及梯度提升机算法模型,训练获得某房产贷款的待确定贷款连续逾期预测模型。使用0.2q个样本特征数据、0.2q个样本特征数据对应的贷款连续逾期两次的标签对某房产贷款的待确定贷款连续逾期预测模型进行验证。在某房产贷款的待确定贷款连续逾期预测模型通过验证之后,使用0.1q个样本特征数据、0.1q个样本特征数据对应的贷款连续逾期两次的标签对某房产贷款的待确定贷款连续逾期预测模型进行测试。在某房产贷款的待确定贷款连续逾期预测模型通过验证之后,将某房产贷款的待确定贷款连续逾期预测模型作为某房产贷款的连续逾期两次预测模型。当对客户c进行某房产贷款连续逾期两次的预测时,收集客户c的客户基本信息、客户资产信息、客户贷款信息、交易信息、风险信息和同类客户信息。对客户c的客户基本信息、客户资产信息、客户贷款信息、交易信息、风险信息和同类客户信息进行预处理,获得客户c的贷款特征数据,将客户c的贷款特征数据输入至某房产贷款的连续逾期两次预测模型中,可以输出客户c贷款逾期预测结果。如果输出结果表明客户c会对某房产贷款连续逾期两次,那么需要加强对客户c的风险管控,在对某房产贷款进行风险管控时会重点关注客户c。图4是本发明一实施例提供的贷款连续逾期的预测装置的结构示意图,如图4所示,在上述各实施例的基础上,进一步地,本发明实施例提供的贷款连续逾期的预测装置包括获取单元401、预处理单元402和预测单元403,其中:获取单元401用于获取客户的贷款逾期评估信息;预处理单元402用于对所述贷款逾期评估信息进行预处理,获得贷款特征数据;预测单元403用于将所述贷款特征数据输入至贷款连续逾期预测模型,输出所述客户的贷款连续逾期的预测结果;其中,所述贷款连续逾期预测模型是基于贷款逾期评估样本数据以及预先确定的贷款连续逾期标签训练后获得的。具体地,客户的贷款逾期评估信息是用来反映客户的贷款是否会连续逾期的信息。客户的贷款逾期评估信息根据来源不同可以包括年龄、性别、受教育程度、行业、贷款产品等能够直接获取的信息,还可以包括贷款账龄占贷款期限比例、当前期数内资金流入金额、当期流入金额与还款金额差值等需要经过数据处理获取的信息。获取单元401可以获取到所述客户的贷款逾期评估信息。所述客户的贷款逾期评估信息包括的信息数量根据实际需要进行设置,本发明实施例不做限定。可理解的是,当客户的贷款逾期评估信息中存在数据缺失时,可以通过随机森林算法、平均值法或者相似客户的数据进行补缺,根据实际需要进行选择,本发明实施例不做限定。在获得所述贷款逾期评估信息之后,预处理单元402会对所述贷款逾期评估信息进行预处理,将所述贷款逾期评估信息转换成数值数据,获得贷款特征数据。其中,对于金融产品总额、各类金融产品余额等信息,可以直接保留数值;对于性别、行业、受教育程度等信息可以通过one-hot编码等方式转换成数值数据。所述贷款逾期评估信息转换成数值数据的具体过程根据实际需要进行设置,本发明实施例不做限定。在获得所述贷款特征数据之后,预测单元403将所述贷款特征数据输入至贷款连续逾期预测模型中,经过所述贷款连续逾期预测模型的处理,可以输出所述客户的贷款连续逾期的预测结果,所述贷款连续逾期的预测结果为连续逾期或者不会连续逾期,所述贷款连续逾期的预测结果为连续逾期表明所述客户存在较高的贷款逾期风险,需要加强对所述客户的风险管控。所述贷款逾期预测结果为不会连续逾期表明所述客户贷款逾期风险较低。其中,所述贷款连续逾期预测模型是基于贷款逾期评估样本数据以及预先确定的贷款连续逾期标签训练后获得的。所述贷款逾期评估样本数据中每个评估样本数据都对应一个贷款连续逾期标签。所述贷款连续逾期预测模型用于对某一项贷款的客户是否会存在贷款连续逾期情况进行预测。本发明实施例提供的贷款连续逾期的预测装置,获取客户的贷款逾期评估信息,对贷款逾期评估信息进行预处理,获得贷款特征数据,将贷款特征数据输入至贷款连续逾期预测模型,输出客户的贷款连续逾期的预测结果,能够提高贷款连续逾期的预测的准确性。此外,通过对贷款连续逾期进行预测,滤除偶尔逾期一次的情况,能更准确的预测风险较高的贷款。图5是本发明另一实施例提供的贷款连续逾期的预测装置的结构示意图,如图5所示,在上述各实施例的基础上,进一步地,本发明实施例提供的贷款连续逾期的预测装置还包括划分单元404、训练单元405、验证单元406、测试单元407和判断单元408,其中:划分单元404用于对所述贷款逾期评估样本数据进行预处理,获得样本特征集,并将所述样本特征集划分为训练集、验证集和测试集;训练单元405用于根据所述训练集、所述训练集对应的贷款连续逾期标签以及梯度提升机算法模型,训练获得待确定贷款连续逾期预测模型;验证单元406用于根据所述验证集以及所述验证集对应的贷款连续逾期标签对所述待确定贷款连续逾期预测模型进行验证;测试单元407用于在判断所述待确定贷款连续逾期预测模型通过验证之后,根据所述测试集以及测试集对应的贷款连续逾期标签对所述待确定贷款连续逾期预测模型进行测试;判断单元408用于在判断获知所述待确定贷款连续逾期预测模型通过测试之后,将所述待确定贷款连续逾期预测模型作为所述贷款连续逾期预测模型。具体地,可以收集获得某项贷款的连续n个月的贷款数据,对上述连续n个月的贷款数据进行打标签,获得第一数量个标签,基于每个标签对应的贷款期数的客户相关信息可以获得第一数量个评估样本数据,每个评估样本数据对应一个贷款连续逾期标签,所述第一数量个评估样本数据构成了所述贷款逾期评估样本数据。划分单元404对所述贷款逾期评估样本数据进行预处理,获得样本特征集,所述样本特征集包括第一数量个样本特征数据。所述服务器将所述样本特征集划分为训练集、验证集和测试集,例如将所述第一数量的70%的样本特征数据归为所述训练集,将所述第一数量的20%的样本特征数据归为所述验证集,将剩余的样本特征数据归为所述测试集。其中,n的具体数值根据实际需要进行设置,本发明实施例不做限定。所述贷款逾期评估样本数据的预处理过程,与所述贷款逾期评估信息预处理的过程类似,此处不进行赘述。可理解的是,每个评估样本数据包括的信息的类别与所述客户的贷款逾期评估信息包括的信息的类别相同。训练单元405将所述训练集中的样本特征数据以及样本特征数据对应的贷款连续逾期标签输入至梯度提升机算法模型,得到样本特征数据的预测结果,然后通过样本特征数据的预测结果与样本特征数据对应的贷款连续逾期标签之间的残差对所述梯度提升机算法模型进行修正,不断循环迭代,直到迭代次数达到预设次数,获得待确定贷款连续逾期预测模型。其中,所述预设次数根据实际需要进行设置,本发明实施例不做限定。获得所述待确定贷款连续逾期预测模型之后,验证单元406可以通过所述验证集验证所述待确定贷款连续逾期预测模型的效果,将所述验证集的样本特征数据以及样本特征数据对应的贷款连续逾期标签输入至所述待确定贷款连续逾期预测模型,获得所述验证集的每个样本特征数据的预测结果,基于所述验证集的每个样本特征数据的预测结果以及每个样本特征数据对应的贷款连续逾期标签对所述待确定贷款连续逾期预测模型进行验证。如果所述待确定贷款连续逾期预测模型通过验证,那么再使用所述测试集对所述待确定贷款连续逾期预测模型进行测试;如果所述待确定贷款连续逾期预测模型没有通过验证,那么调整所述梯度提升机算法模型的各项参数,重新进行模型训练。测试单元407会判断所述待确定贷款连续逾期预测模型是否通过验证,如果所述待确定贷款连续逾期预测模型通过验证,那么将所述测试集中的每个样本特征数据输入至所述待确定贷款连续逾期预测模型,获得所述测试集中的每个样本特征数据的预测结果,将所述测试集中的每个样本特征数据的预测结果与每个样本特征数据对应的贷款连续逾期标签进出比较,可以获得所述待确定贷款连续逾期预测模型预测的准确率,如果所述待确定贷款连续逾期预测模型预测的准确率大于等于准确率阈值,那么所述待确定贷款连续逾期预测模型通过测试,如果所述待确定贷款连续逾期预测模型预测的准确率小于准确率阈值,那么所述待确定贷款连续逾期预测模型不能通过测试。其中,所述准确率阈值根据实际经验进行设置,本发明实施例不做限定。在对所述待确定贷款连续逾期预测模型进行测试之后,判断单元408会判断所述待确定贷款连续逾期预测模型是否通过测试,如果所述待确定贷款连续逾期预测模型通过测试,那么将所述待确定贷款连续逾期预测模型作为所述贷款连续逾期预测模型。图6是本发明又一实施例提供的贷款连续逾期的预测装置的结构示意图,如图6所示,在上述各实施例的基础上,进一步地,验证单元406包括输出子单元4061、获得子单元4062和确定子单元4063,其中:输出子单元4061用于将所述验证集的各个样本特征数据分别输入至所述待确定贷款连续逾期预测模型,输出每个样本特征数据的预测结果;获得子单元4062用于根据所述验证集的各个样本特征数据的预测结果以及各个样本特征数据对应的贷款连续逾期标签,获得roc曲线;确定子单元4063用于根据roc曲线对应的auc值对所述待确定贷款连续逾期预测模型进行验证。具体地,输出子单元4061将所述验证集的每个样本特征数据输入至所述待确定贷款连续逾期预测模型,可以输出所述验证集的每个样本特征数据的预测结果。获得子单元4062对比所述验证集的每个样本特征数据的预测结果以及每个样本特征数据对应的贷款连续逾期标签,根据对比的结果可以绘制出roc曲线。在绘制出roc曲线之后,确定子单元4063计算roc曲线与坐标轴围成的面积可获得auc值,如果auc值与1之间差值的绝对值小于预设值,那么所述待确定贷款连续逾期预测模型通过验证,如果auc值与1之间差值的绝对值大于等于预设值,那么所述待确定贷款连续逾期预测模型不通过验证。在上述各实施例的基础上,进一步地,所述贷款逾期评估信息包括客户基本信息、客户资产信息、客户贷款信息、交易信息、风险信息和同类客户信息六类信息。具体地,所述客户的贷款逾期评估信息可以分为六类:客户基本信息、客户资产信息、客户贷款信息、交易信息、风险信息和同类客户信息。其中,客户基本信息包括年龄、性别、受教育程度、婚姻状况、行业等信息;客户资产信息包括当前客户持有的金融产品总额、各类别金融产品余额等信息;客户贷款信息包括各类贷款产品余额、贷款账龄占贷款期限比例等信息;交易信息包括客户还款账户当前月份的资金流入/出笔数、资金流入/流出总金额等信息;风险信息包括客户当前未还清贷款数占总贷款数比例、当前贷款余额占金融资产比值、当前贷款重组笔数等信息;同类客户信息包括批量申请、批量逾期、资金来源账户相同等信息,同类客户信息用于考量客户是否存在批量虚假贷款的贷款特征,对于同一个开发商下的贷款客户,可能会存在虚假贷款的情况。本发明实施例提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。图7是本发明一实施例提供的电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)701、通信接口(communicationsinterface)702、存储器(memory)703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信。处理器701可以调用存储器703中的逻辑指令,以执行如下方法:获取客户的贷款逾期评估信息;对所述贷款逾期评估信息进行预处理,获得贷款特征数据;将所述贷款特征数据输入至贷款连续逾期预测模型,输出所述客户的贷款连续逾期的预测结果;其中,所述贷款连续逾期预测模型是基于贷款逾期评估样本数据以及预先确定的贷款连续逾期标签训练后获得的。此外,上述的存储器703中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取客户的贷款逾期评估信息;对所述贷款逾期评估信息进行预处理,获得贷款特征数据;将所述贷款特征数据输入至贷款连续逾期预测模型,输出所述客户的贷款连续逾期的预测结果;其中,所述贷款连续逾期预测模型是基于贷款逾期评估样本数据以及预先确定的贷款连续逾期标签训练后获得的。本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取客户的贷款逾期评估信息;对所述贷款逾期评估信息进行预处理,获得贷款特征数据;将所述贷款特征数据输入至贷款连续逾期预测模型,输出所述客户的贷款连续逾期的预测结果;其中,所述贷款连续逾期预测模型是基于贷款逾期评估样本数据以及预先确定的贷款连续逾期标签训练后获得的。本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1