本公开涉及计算机技术领域,特别涉及一种贷款逾期预测方法、装置以及计算机可读存储介质。
背景技术:
随着互联网技术的发展,互联网金融领域蓬勃发展。各种支付、信贷平台和应用不断涌现,越来越方便人们的生活。
网络贷款是近年来比较受关注的互联网金融项目。网络贷款可以为用户更加便捷的提供急需的资金,方便用户生活。
技术实现要素:
发明人发现:由于信贷审核成本较高,网络贷款一般对于用户的信用审核不严格,由此带来高逾期率和不良率的问题。针对贷款用户在贷款过程中进行逾期估计,有利于网络贷款平台催缴用户还款、规避风险以及合理配置资金等有重要作用。目前,贷款过程中逾期估计大都是基于用户之前还款状况的统计信息进行推测得到。
但是,由于网上贷款的用户流动性比较强,在一个固定的贷款平台上,贷款和还款信息非常少,贷款平台仅仅根据用户群整体之前还款状况的统计信息对用户群整体是否逾期进行估计,估计结果会非常不准确。
本公开所要解决的一个技术问题是:如何提高贷款过程中预测用户还款是否会逾期的准确性。
根据本公开的一些实施例,提供的一种贷款逾期预测方法,包括:获取用户的画像信息和贷款的历史还款信息;将用户的画像信息和贷款的历史还款信息输入预先训练的机器学习模型;根据机器学习模型输出值,预测用户针对贷款的当前期还款是否会逾期。
在一些实施例中,贷款的历史还款信息包括:贷款的历史各期的还款状态信息;将用户的画像信息和贷款的历史还款信息输入预先训练的机器学习模型包括:将用户的画像信息和贷款的历史各期的还款状态信息输入预先训练的第一机器学习模型。
在一些实施例中,贷款的历史还款信息包括:贷款的历史还款统计信息;将用户的画像信息和贷款的历史还款信息输入预先训练的机器学习模型包括:将用户的画像信息和贷款的历史还款统计信息输入预先训练的第二机器学习模型。
在一些实施例中,贷款的历史还款信息包括:贷款的历史各期的还款状态信息和历史还款统计信息;将用户的画像信息和贷款的历史还款信息输入预先训练的机器学习模型包括:将用户的画像信息和贷款的历史各期的还款状态信息输入预先训练的第一机器学习模型;将用户的画像信息和贷款的历史还款统计信息输入预先训练的第二机器学习模型。
在一些实施例中,根据机器学习模型输出值,预测用户针对贷款的当前期还款是否会逾期包括:根据第一机器学习模型输出的用户针对贷款的当前期还款的第一逾期概率和第二机器学习模型输出的用户针对贷款的当前期还款的第二逾期概率的加权值,预测用户针对贷款的当前期还款是否会逾期。
在一些实施例中,将用户的画像信息和贷款的历史各期的还款状态信息输入预先训练的第一机器学习模型包括:将用户的画像信息输入预先训练的第一机器学习子模型,得到第一输出值;将贷款的历史各期的还款状态信息输入预先训练的第二机器学习子模型,得到第二输出值;将第一输出值和第二输出值,输入预先训练的第三机器学习子模型。
在一些实施例中,该方法还包括:选取与待预测用户相匹配,且贷款类型相匹配的训练用户;利用训练用户的画像信息、与待预测用户贷款类型相匹配的贷款的历史还款信息对机器学习模型进行训练,得到预先训练的机器学习模型。
在一些实施例中,在与待预测用户的贷款类型相匹配内部数据源的数量未达到第一阈值的情况下,训练用户以及训练用户的画像信息和历史还款信息从外部数据源中选取;其中,外部数据源包括外部信贷机构系统、电子商务平台的数据源中至少一项。
在一些实施例中,在与待预测用户的贷款类型相匹配内部数据源的数量达到第一阈值,且未达到第二阈值的情况下,训练用户以及训练用户的画像信息和历史还款信息从外部数据源中和内部数据源中选取;预选训练的机器学习模型包括:基于从外部数据源选取的训练用户的画像信息和历史还款信息训练得到的外部数据源机器学习模型,以及基于从内部数据源选取的训练用户的画像信息和历史还款信息训练得到的内部数据源机器学习模型。其中,外部数据源包括外部信贷机构系统、电子商务平台的数据源中至少一项。
在一些实施例中,根据机器学习模型输出值,预测用户针对贷款的当前期还款是否会逾期包括:根据外部数据源机器学习模型输出的用户针对贷款的当前期还款的第三逾期概率和内部数据源机器学习模型输出的用户针对贷款的当前期还款的第四逾期概率的加权值,预测用户针对贷款的当前期还款是否会逾期。
在一些实施例中,在与待预测用户的贷款类型相匹配内部数据源的数量达到第二阈值的情况下,训练用户以及训练用户的画像信息和历史还款信息从内部数据源中选取。
根据本公开的另一些实施例,提供的一种贷款逾期预测装置,包括:信息获取模块,用于获取用户的画像信息和贷款的历史还款信息;信息输入模块,用于将用户的画像信息和贷款的历史还款信息输入预先训练的机器学习模型;预测模块,用于根据机器学习模型输出值,预测用户针对贷款的当前期还款是否会逾期。
在一些实施例中,贷款的历史还款信息包括:贷款的历史各期的还款状态信息;信息输入模块用于将用户的画像信息和贷款的历史各期的还款状态信息输入预先训练的第一机器学习模型。
在一些实施例中,贷款的历史还款信息包括:贷款的历史还款统计信息;信息输入模块用于将用户的画像信息和贷款的历史还款统计信息输入预先训练的第二机器学习模型。
在一些实施例中,贷款的历史还款信息包括:贷款的历史各期的还款状态信息和历史还款统计信息;信息输入模块用于将用户的画像信息和贷款的历史各期的还款状态信息输入预先训练的第一机器学习模型,并且将用户的画像信息和贷款的历史还款统计信息输入预先训练的第二机器学习模型。
在一些实施例中,预测模块用于根据第一机器学习模型输出的用户针对贷款的当前期还款的第一逾期概率和第二机器学习模型输出的用户针对贷款的当前期还款的第二逾期概率的加权值,预测用户针对贷款的当前期还款是否会逾期。
在一些实施例中,信息输入模块用于将用户的画像信息输入预先训练的第一机器学习子模型,得到第一输出值;将贷款的历史各期的还款状态信息输入预先训练的第二机器学习子模型,得到第二输出值;将第一输出值和第二输出值,输入预先训练的第三机器学习子模型。
在一些实施例中,该装置还包括:训练数据选取模块,用于选取与待预测用户相匹配,且贷款类型相匹配的训练用户;模型训练模块,用于利用训练用户的画像信息、与待预测用户贷款类型相匹配的贷款的历史还款信息对机器学习模型进行训练,得到预先训练的机器学习模型。
在一些实施例中,在与待预测用户的贷款类型相匹配内部数据源的数量未达到第一阈值的情况下,训练用户以及训练用户的画像信息和历史还款信息从外部数据源中选取;其中,外部数据源包括外部信贷机构系统、电子商务平台的数据源中至少一项。
在一些实施例中,在与待预测用户的贷款类型相匹配内部数据源的数量达到第一阈值,且未达到第二阈值的情况下,训练用户以及训练用户的画像信息和历史还款信息从外部数据源中和内部数据源中选取;预选训练的机器学习模型包括:基于从外部数据源选取的训练用户的画像信息和历史还款信息训练得到的外部数据源机器学习模型,以及基于从内部数据源选取的训练用户的画像信息和历史还款信息训练得到的内部数据源机器学习模型。其中,外部数据源包括外部信贷机构系统、电子商务平台的数据源中至少一项。
在一些实施例中,预测模块用于根据外部数据源机器学习模型输出的用户针对贷款的当前期还款的第三逾期概率和内部数据源机器学习模型输出的用户针对贷款的当前期还款的第四逾期概率的加权值,预测用户针对贷款的当前期还款是否会逾期。
在一些实施例中,在与待预测用户的贷款类型相匹配内部数据源的数量达到第二阈值的情况下,训练用户以及训练用户的画像信息和历史还款信息从内部数据源中选取。
根据本公开的又一些实施例,提供的一种贷款逾期预测装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器设备中的指令,执行如前述任意实施例的贷款逾期预测方法。
根据本公开的再一些实施例,提供的一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意实施例的贷款逾期预测方法的步骤。
本公开结合用户的画像信息和贷款的历史还款信息,利用机器学习模型,预测用户针对当前贷款的当前期还款是否会逾期。由于用户画像信息可以反映用户个体状况和信用特征,针对用户还款信息少的情况,也可以较为准确的预测单个用户的还款是否会逾期。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本公开的一些实施例的贷款逾期预测方法的流程示意图。
图2示出本公开的一些实施例的机器学习模型的示意图。
图3示出本公开的另一些实施例的贷款逾期预测方法的流程示意图。
图4示出本公开的另一些实施例的机器学习模型的示意图。
图5示出本公开的一些实施例的贷款逾期预测装置的结构示意图。
图6示出本公开的另一些实施例的贷款逾期预测装置的结构示意图。
图7示出本公开的又一些实施例的贷款逾期预测装置的结构示意图。
图8示出本公开的再一些实施例的贷款逾期预测装置的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
针对网上贷款平台的用户还款信息少,预测用户还款是否会逾期不准确的问题,提出本方案。本方案不仅可以用于网上贷款的预测,也可以应用于线下贷款的预测。下面结合图1描述本公开的一些实施例。
图1为本公开贷款逾期预测方法一些实施例的流程图。如图1所示,该实施例的方法包括:步骤S102~S106。该实施例的方法可以由贷款逾期预测装置执行。
在步骤S102中,获取用户的画像信息和贷款的历史还款信息。
画像信息例如用户的个人信息包括:年龄、地域、性别、婚姻状况、银行卡类别、信用等级、信用额度、开户地点、开户时间中至少一项。年龄、地域、性别、婚姻状况、银行卡类别这些信息可以基于用户注册本贷款平台时的注册信息获取。银行卡的信用等级、信用额度、开户地点、开户时间这些可以从外部数据源中获取,例如外部信贷机构系统或者电子商务平台等渠道。信用等级、信用额度等也可以是电子信用账户中的属性。具体的用户画像信息可以根据实际需求进行选择。
用户贷款过程中,针对一项贷款产生了历史还款信息,可以结合用户的画像信息一起应用。历史还款信息可以包括:历史各期的还款状态信息和历史还款统计信息中至少一项。
历史各期的还款状态信息包括:贷款的历史各期的逾期天数、贷款机构代偿金额、贷款机构代偿比例中至少一项。例如,用户贷款的期限为6个月,即分6个月还清贷款,在第3个月时,可以结合第1、2个月的逾期天数、贷款机构代偿金额、贷款机构代偿比例等等,对第3个月还款是否会逾期进行预测。历史上每一期的还款状态信息可以根据实际需求进行选取,例如,还可以进一步设置一系列的逾期天数阈值,统计历史各期中逾期天数在哪个阈值范围内等等。
贷款的历史还款统计信息包括:贷款的历史逾期总次数、逾期总金额、贷款机构代偿总金额、贷款机构代偿总次数、贷款机构代偿比例、最大逾期天数中至少一项。贷款的历史还款统计信息即对历史各期的还款状态信息的统计信息,也可以根据实际需求进行选取,不限于所举示例。贷款机构代偿是指用户逾期一定时间之后贷款机构给资金方垫付还款的行为。本公开中贷款不仅包括传统的向线上或线下信贷机构借款行为,还可以包括购买商品时的分期付款、信用卡分期还款等行为,都可以根据本公开的方案预测用户的还款是否会逾期。
在步骤S104中,将用户的画像信息和贷款的历史还款信息输入预先训练的机器学习模型。
可以对机器学习模型进行离线训练,之后应用时可以直接输入用户相关信息即可确定结果。基于选取的信息不同,可以应用不同的机器学习模型,在一些实施例中,将用户的画像信息和贷款的历史各期的还款状态信息输入预先训练的第一机器学习模型。在另一些实施例中,将用户的画像信息和贷款的历史还款统计信息输入预先训练的第二机器学习模型。例如,历史各期的还款状态信息可以输入能够处理时序特征的机器学习模型,贷款的历史还款统计信息可以输入分类模型等等。第一机器学习模型可以包括:神经网络模型,例如RNN(Recurrent Neural Network,循环神经网络)模型,LSTM(Long Short Time Memory,长短期记忆)网络模型等。第二机器学习模型可以包括:决策树模型,例如,GBDT(Gradient Boosting Decision Tree,梯度提升决策树)等。
第一机器学习模型也可以是多个神经网络的组合而成的神经网络模型,一方面可以适应多种不同类型的用户的特征信息的应用,另一方面提高预测的准确性。由于历史各期的还款状态信息是时序特征,可以应用能够处理时序特征的神经网络模型,用户的画像信息属于非时序特征,可以将应用普通的神经网络模型进行处理。例如,如图2所示,将用户的画像信息输入预先训练的第一机器学习子模型,得到第一输出值;将贷款的历史各期的还款状态信息输入预先训练的第二机器学习子模型,得到第二输出值;将第一输出值和第二输出值,输入预先训练的第三机器学习子模型。第一机器学习模型由两个子模型并联并串联一个子模型得到。第一机器学习子模型和第三机器学习子模型例如为全连接神经网络模型,第二机器学习子模型例如为LSTM模型。
在又一些实施例中,可以结合多个机器学习模型,提升预测的准确率。将用户的画像信息和贷款的历史各期的还款状态信息输入预先训练的第一机器学习模型;并且将用户的画像信息和贷款的历史还款统计信息输入预先训练的第二机器学习模型。具体的训练过程以及机器学习模型将在后续进行描述。
在步骤S106中,根据机器学习模型输出值,预测用户针对贷款的当前期还款是否会逾期。
机器学习模型例如可以输出用户针对贷款的当前期还款的逾期概率等,根据逾期概率可以预测用户针对贷款的当前期还款是否会逾期,例如,预测逾期概率大于阈值的用户针对当前贷款的当前期还款会逾期。根据选取的机器学习模型的不同,输出结果可以不同。
在应用多个机器学习模型的情况下,例如,应用两个机器学习模型的情况下,可以根据第一机器学习模型输出的用户针对贷款的当前期还款的第一逾期概率和第二机器学习模型输出的用户针对贷款的当前期还款的第二逾期概率的加权值,预测用户针对贷款的当前期还款是否会逾期。
第一机器学习模型和第二机器模型对应的权重可以根据用户数据的数量进行动态调整。发明人在测试过程中发现,在用户的历史还款数据较少时,基于决策树进行预测会较为准确,可以将对应的权重增大,而神经网络模型对应的权重可以设置的较小。相反,在用户的历史还款数据较多时,基于神经网络模型进行预测会较为准确,可以将对应的权重增大,而决策树模型对应的权重可以设置的较小。可以设置还款数据阈值,并对应不同的机器学习模型和权重,将用户的历史还款数据的数量与还款数据阈值进行比对,从而确定各个机器学习模型的权重。
上述实施例的方法中结合用户的画像信息和贷款的历史还款信息,利用机器学习模型,预测用户针对当前贷款的当前期还款是否会逾期。由于用户画像信息可以反映用户个体状况和信用特征,机器学习模型可以自动学习不同特征的用户的还款情况。针对用户还款信息少的情况,也可以较为准确的预测单个用户的还款是否会逾期。此外,上述实施例的方法可以针对单个用户的贷款行为进行预测,相对于目前的预测方法仅能预测用户人群整体的逾期情况,进一步提高了贷款平台对贷款风险预测的准确性和精确度,有利于降低业务风险,开展业务。
下面结合图3描述本公开中机器学习模型的训练方法的一些实施例。
图3为本公开贷款逾期预测方法另一些实施例的流程图。如图3所示,该实施例的方法中在步骤S102之前还包括:步骤302~S304。该实施例的方法可以由贷款逾期预测装置执行。
在步骤S302中,选取与待预测用户相匹配,且贷款类型相匹配的训练用户。
可以通过画像信息以及历史信贷信息将备选用户与待预测用户相匹配。例如,选取年龄与待预测用户的年龄差在预设范围内、地域与待预测用户的地域距离在预设距离范围内、信用等级与待预测用户的等级差在预设等级范围内、贷款额度与待预测用户的额度差在预设额度范围内等的备选用户作为训练用户,这些备选用户与待预测用户的个人属性特征相似,贷款类型相似,基于这些用户训练得到的模型在进行用户逾期行为的预测时更加准确。具体的匹配原则,可以根据实际需求进行设置,例如,针对小额贷款用户进行预测时,可以选取年龄相似、居住城市相同的小额贷款的备选用户作为训练用户。
在步骤S304中,利用训练用户的画像信息、与待预测用户贷款类型相匹配的贷款的历史还款信息对机器学习模型进行训练,得到预先训练的机器学习模型。
训练用户以及训练用户相关信息可以从外部数据源中获取,也可以从内部数据源中获取,或者结合外部数据源与内部数据源共同获取。在内部数据源很少,例如贷款平台初期放贷的情况下,利用外部数据源对模型进行训练后,可以直接进行模型迁移对用户进行预测以快速实现模型上线,并且预测准确,降低了初期放贷的风险。随着内部数据的不断增多,可以利用内部数据修正模型。进一步,当内部数据足够多时,可以利用基于内部数据训练得到的模型直接对用户的逾期行为进行预测。
外部数据源例如包括外部信贷机构系统和电子商务平台中至少一种渠道。从外部数据源获取的用户的历史还款信息可以包括,历史贷款的还款信息、信用卡历史分期还款信息或者购买商品的分期付款信息等,这些信息都可以用于模型的训练。
在一些实施例中,如图4所示,在与待预测用户的贷款类型相匹配内部数据的数量未达到第一阈值的情况下,训练用户以及训练用户的画像信息和历史还款信息从外部数据源中选取。即根据画像信息和贷款类型,从外部数据源中选取与待预测用户相匹配,且贷款类型相匹配的训练用户;利用训练用户的画像信息、与待预测用户贷款类型相匹配的贷款的历史还款信息对机器学习模型进行训练,得到外部数据源机器学习模型。
在另一些实施例中,如图4所示,在与待预测用户的贷款类型相匹配内部数据的数量达到第一阈值,且未达到第二阈值的情况下,训练用户以及训练用户的画像信息和历史还款信息从外部数据源中和内部数据源中选取;预选训练的机器学习模型包括:基于从外部数据源选取的训练用户的画像信息和历史还款信息训练得到的外部数据源机器学习模型,以及基于从内部数据源选取的训练用户的画像信息和历史还款信息训练得到的内部数据源机器学习模型。
这种情况下,根据外部数据源机器学习模型输出的用户针对贷款的当前期还款的第三逾期概率和内部数据源机器学习模型输出的用户针对贷款的当前期还款的第四逾期概率的加权值,预测用户针对贷款的当前期还款是否会逾期。即同时应用外部数据源机器学习模型和内部数据源机器学习模型对用户的逾期情况进行预测。外部数据源机器学习模型和内部数据源机器学习模型对应的权重,可以根据内部数据源提供的训练用户的数据数量进行动态设置,内部数据源提供的训练用户的数据数量越多,则对应的权重越大,相应的,外部数据源对应的权重越小。具体调整规则可以灵活设置,例如,将内部数据源提供的训练用户的数据数量划分为不同的区间,对应不同的权重等。
在又一些实施例中,如图4所示,在与待预测用户的贷款类型相匹配内部数据的数量达到第二阈值的情况下,训练用户以及训练用户的画像信息和历史还款信息从内部数据源中选取。即从内部数据源中选取与待预测用户的贷款类型相匹配的训练用户;利用训练用户的画像信息、与待预测用户贷款类型相匹配的贷款的历史还款信息对机器学习模型进行训练,得到内部数据源机器学习模型。
上述实施例中,根据不同的数据选取不同的机器学习模型,或者根据外部数据和内部数据的不同数量,利用多种机器学习模型对用户的还款情况进行预测。针对贷款平台用户数据少的情况,可以有效地实现对用户初期还款行为的预测、并有效提高预测的准确率。
无论是对于待预测用户的数据还是训练用户的数据,在使用之前,都需要进行预处理。例如,还款日期修正,数据准确性核对,历史还款信息的统计、数据归一化等。还款日期修正例如包括:负责处理业务数据中的大量数值缺失或修正。用户还款信息可能记录不准确,存在信息入库不及时的情况。因此,可以自动化的检验用户的还款信息是否空缺,补全还款信息等。
数据正确性核对例如包括:验证还款日期修正完成的数据中还款日期和还款状态是否合理,验证还款日期修正完成数据的贷款分期数的准确性,确保每一个分期均只有一条数据。如发现数据中存在贷款分期重复记录的问题,将清除重复的信息。
历史还款信息统计例如包括:在完成前面的数据修正核对等步骤,可以对每一条数据,依照其所属的贷款单号进行分组,即针对同一贷款的各个分期的数据组成一组,在分组内进行历史还款信息的统计,生成历史还款统计信息。
数据归一化例如包括:对前述处理完成的数据做归一化,onehot编码等。
下面描述本公开贷款逾期预测方法的一些应用例。
(1)从外部数据源中获取与待预测的小额贷款用户画像信息相匹配并且贷款类型相匹配的第一训练用户集。
由于外部数据源覆盖人群极广,相比于小额贷款,数据极多。因此有必要从外部数据源中筛选出一部分最符合小额贷款客户群的人群,针对他们进行建模,以最大化模型迁移到小额贷款数据之后的准确率。例如,根据用户的所在地点,外部信贷机构系统或电子商务平台注册时间,贷款类型或购买商品类别和年龄等对训练用户以及相关数据进行了筛选。
(2)获取第一训练用户集的画像信息和历史还款信息。
历史还款信息包括贷款的历史各期的还款状态信息和历史还款统计信息。对第一训练用户集中用户的历史还款信息可以参考前述实施例进行预处理,做归一化,onehot编码,缺失值填充工作,并将这些编码或者填充过程中产生的中间参数,例如数据最大值,最小值,onehot编码对应原字段保存下来。同时,为方便模型的迁移和对新数据的适应,数据处理方法和模型代码做了分离处理,数据处理方法描述在可以放置在数据处理描述文件(xlsx)文件中。如此处理,在迁移模型到新的数据(内部数据源的数据)的过程中,将不需要改动模型代码,而仅需修改数据处理描述文件,多种数据处理方法可以敏捷的进行转换,加速模型调优进程,同时允许模型以极快的速度适配新的数据。
(3)将第一训练用户集的画像信息和历史还款信息输入机器学习模型进行训练,得到外部数据源机器学习模型。
例如,机器学习模型包括RNN模型和GBDT模型,RNN模型需要输入第一训练用户集的画像信息和历史各期的还款状态信息。具体的,将第一训练用户集中用户的历史各期的还款状态信息按照时间排列顺序进行LSTM处理,将用户的画像信息输入全连接神经网络,分别输出的第一输出值和第二输出值再输入一个全连接神经网络进行训练。GBDT模型输入第一训练用户集的画像信息和历史还款统计信息,例如贷款的历史还款平均逾期天数等这样的历史统计信息。训练过程中,基于模型输出结果与实际数据的偏差对模型的参数进行调整,同时RNN模型和GBDT模型分别对应不同的权重,也可以在训练过程中进行调整。
基于外部数据训练一个可以直接冷启动的模型,用于在贷款项目刚启动,放款刚开始进行,没有足够还款信息的时候的用户还款逾期的预测。
(4)判断与待预测用户的贷款类型相匹配内部数据源的数量是否达到第一阈值,如果未达到则执行步骤(5),否则,执行步骤(6)。
(5)获取待预测用户的画像信息和历史还款信息,输入外部数据源机器学习模型,预测用户针对当前贷款的当前期还款是否会逾期。
初始时,待预测用户没有对应的历史还款信息,则可以只输入画像信息进行预测。和训练过程类似,待预测用户的画像信息和历史各期的还款状态信息输入RNN模型,待预测用户的画像信息和历史还款统计信息输入GBDT模型,两个模型的输出值进行加权得到待预测用户针对当前贷款的当前期还款的逾期概率,从而确定是否会逾期。
(6)从内部数据源中获取与待预测用户画像信息相匹配并且贷款类型相匹配的第二训练用户集,以及第二训练用户集中用户的画像信息和历史还款信息。
(7)将第二训练用户集的画像信息和历史还款信息输入机器学习模型进行训练,得到内部数据源机器学习模型。
训练过程与外部数据源机器学习模型的训练过程类似,不再赘述。
(8)判断与待预测用户的贷款类型相匹配内部数据源的数量是否达到第二阈值,如果未达到,执行步骤(9),否则执行步骤(10)。
(9)获取待预测用户的画像信息和历史还款信息,输入外部数据源机器学习模型和内部数据源机器学习模型,预测用户针对当前贷款的当前期还款是否会逾期。
同时应用外部数据源机器学习模型和内部数据源机器学习模型时,两个机器学习模型输出的结果可以进行加权,预测用户针对当前贷款的当前期还款是否会逾期。
(10)获取待预测用户的画像信息和历史还款信息,输入内部数据源机器学习模型,预测用户针对当前贷款的当前期还款是否会逾期。
考虑到在贷款业务进行的不同阶段,所能获取的还款行为数据量不同,因此可以按照已获得的内部数据的数量,区分不同的模型应用模式。在贷款初始阶段,由于无法获取足够的还款行为信息,此时的模型由外部数据训练获得。随着项目的进行,系统能收集到足够的还款信息,此时模型将使用收集到的内部数据训练模型,同时和原始的外部数据训练的模型做集成在一起进行预测。项目的后期,随着内部数据的进一步增大,可以放弃基于外部数据预训练模型,直接使用收集到的内部还款行为数据训练模型,进行预测。
可以对预测信息利用表格等形式进行呈现,例如,显示逾期用户、逾期用户数量、逾期金额等统计信息。
本公开还提供一种贷款逾期预测装置,下面结合图5进行描述。
图5为本公开贷款逾期预测装置的一些实施例的结构图。如图5所示,该实施例的装置50包括:信息获取模块502,信息输入模块504,预测模块506。
信息获取模块502,用于获取用户的画像信息和贷款的历史还款信息。
信息输入模块504,用于将用户的画像信息和贷款的历史还款信息输入预先训练的机器学习模型。
在一些实施例中,贷款的历史还款信息包括:贷款的历史各期的还款状态信息;信息输入模块504用于将用户的画像信息和贷款的历史各期的还款状态信息输入预先训练的第一机器学习模型。
在一些实施例中,贷款的历史还款信息包括:贷款的历史还款统计信息;信息输入模块504用于将用户的画像信息和贷款的历史还款统计信息输入预先训练的第二机器学习模型。
在一些实施例中,贷款的历史还款信息包括:贷款的历史各期的还款状态信息和历史还款统计信息;信息输入模块504用于将用户的画像信息和贷款的历史各期的还款状态信息输入预先训练的第一机器学习模型,并且将用户的画像信息和贷款的历史还款统计信息输入预先训练的第二机器学习模型。
进一步,信息输入模块504用于将用户的画像信息输入预先训练的第一机器学习子模型,得到第一输出值;将贷款的历史各期的还款状态信息输入预先训练的第二机器学习子模型,得到第二输出值;将第一输出值和第二输出值,输入预先训练的第三机器学习子模型。
预测模块506,用于根据机器学习模型输出值,预测用户针对贷款的当前期还款是否会逾期。
在一些实施例中,预测模块506用于根据第一机器学习模型输出的用户针对贷款的当前期还款的第一逾期概率和第二机器学习模型输出的用户针对贷款的当前期还款的第二逾期概率的加权值,预测用户针对贷款的当前期还款是否会逾期。
下面结合图6描述本公开的贷款逾期预测装置的另一些实施例。
图6为本公开贷款逾期预测装置的另一些实施例的结构图。如图6所示,该实施例的装置60包括:训练数据选取模块602,模型训练模块604,以及信息获取模块606,信息输入模块608,预测模块610,分别与信息获取模块502,信息输入模块504,预测模块506相似,以及。
训练数据选取模块602,用于选取与待预测用户相匹配,且贷款类型相匹配的训练用户。
模型训练模块604,用于利用训练用户的画像信息、与待预测用户贷款类型相匹配的贷款的历史还款信息对机器学习模型进行训练,得到预先训练的机器学习模型。
在一些实施例中,在与待预测用户的贷款类型相匹配内部数据源的数量未达到第一阈值的情况下,训练用户以及训练用户的画像信息和历史还款信息从外部数据源中选取;外部数据源包括外部信贷机构系统、电子商务平台的数据源中至少一项。
在一些实施例中,在与待预测用户的贷款类型相匹配内部数据源的数量达到第一阈值,且未达到第二阈值的情况下,训练用户以及训练用户的画像信息和历史还款信息从外部数据源中和内部数据源中选取;预选训练的机器学习模型包括:基于从外部数据源选取的训练用户的画像信息和历史还款信息训练得到的外部数据源机器学习模型,以及基于从内部数据源选取的训练用户的画像信息和历史还款信息训练得到的内部数据源机器学习模型。
进一步,预测模块610用于根据外部数据源机器学习模型输出的用户针对贷款的当前期还款的第三逾期概率和内部数据源机器学习模型输出的用户针对贷款的当前期还款的第四逾期概率的加权值,预测用户针对贷款的当前期还款是否会逾期。
在一些实施例中,在与待预测用户的贷款类型相匹配内部数据源的数量达到第二阈值的情况下,训练用户以及训练用户的画像信息和历史还款信息从内部数据源中选取。
本公开的实施例中的贷款逾期预测装置可各由各种计算设备或计算机系统来实现,下面结合图7以及图8进行描述。
图7为本公开贷款逾期预测装置的一些实施例的结构图。如图7所示,该实施例的装置70包括:存储器710以及耦接至该存储器710的处理器720,处理器720被配置为基于存储在存储器710中的指令,执行本公开中任意一些实施例中的贷款逾期预测方法。
其中,存储器710例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图8为本公开贷款逾期预测装置的另一些实施例的结构图。如图8所示,该实施例的装置80包括:存储器810以及处理器820,分别与存储器710以及处理器720类似。还可以包括输入输出接口830、网络接口840、存储接口850等。这些接口830,840,850以及存储器810和处理器820之间例如可以通过总线860连接。其中,输入输出接口830为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口840为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口850为SD卡、U盘等外置存储设备提供连接接口。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。