金融服务风险预测方法及装置与流程

文档序号:22616213发布日期:2020-10-23 19:16阅读:165来源:国知局
金融服务风险预测方法及装置与流程

本申请涉及数据处理技术领域,具体涉及金融服务风险预测方法及装置。



背景技术:

随着银行等金融机构面向大众提供种类越来越多的金融服务,以及金融服务针对的越来越多的目标人群,金融机构需要在向用户提供某种金融服务之前,对该用户进行提供金融服务可能存在的风险预判。目前,金融机构进行金融服务风险预测的方式通常会用到机器学习模型进行自动化预测,但金融机构目前应用的机器学习模型通常需要大量的历史数据进行训练,在应用这些历史数据时,需要耗费大量的人力进行数据挖掘及处理工作。然而,由人力进行数据处理的方式,在耗时耗力的同时,也会发生由于人为处理失误而造成处理误差的情形。

基于此,现有的金融服务风险预测过程中会提前对训练用数据进行数据分箱处理,常用的分箱方法主要分为有监督的卡方分箱及最小熵法分箱,以及无监督的等距分箱和等频分箱等。然而,由于无监督的分箱方法存在没有考虑因变量的问题,会在一定程度上限制训练得到的机器学习模型效果的提升,且对于分布不均匀的数据集存在训练的机器学习模型不稳定、需要人工手动干涉等,进而无法保证金融服务风险预测的准确性及自动化程度,而有监督分箱方法的运算过程又较为复杂且费时耗力。也就是说,现有的金融服务风险预测过程,无法同时满足金融服务风险预测的准确性及效率。



技术实现要素:

针对现有技术中的问题,本申请提供一种金融服务风险预测方法及装置,能够有效提高训练用数据的分箱过程的可靠性、效率及自动化程度,进而能够有效提高应用分箱后数据训练得到的金融服务风险预测模型对金融机构的用户进行金融服务风险预测的准确性、效率及自动化程度。

为解决上述技术问题,本申请提供以下技术方案:

第一方面,本申请提供一种金融服务风险预测方法,包括:

接收针对目标用户的金融服务风险预测请求,其中,该金融服务风险预测请求中包含有所述目标用户的用户金融信息及对应的金融服务请求类型;

基于所述金融服务请求类型,在预设的多个金融服务风险预测模型中择一作为目标金融服务风险预测模型,其中,各个所述金融服务风险预测模型分别应用各自对应的训练集训练而得,且所述训练集为预先应用spark系统对多个用户的历史用户金融信息进行数据分箱后得到的目标数据集;

将所述目标用户的用户金融信息输入所述目标金融服务风险预测模型,并将该目标金融服务风险预测模型的输出作为所述目标用户的金融服务风险预测结果。

进一步地,所述金融服务请求类型包括:用户类别、金融贷款的申请类型、申请状态和请求类型;

相对应的,所述基于所述金融服务请求类型,在预设的多个金融服务风险预测模型中择一作为目标金融服务风险预测模型,包括:

根据所述目标用户的用户类别、金融贷款的申请类型、申请状态和请求类型,在预设的模型表中选取与所述目标用户的用户类别、金融贷款的申请类型、申请状态和请求类型均对应的一个金融服务风险预测模型,并将该金融服务风险预测模型确定为所述目标用户当前对应的目标金融服务风险预测模型。

进一步地,在所述接收针对目标用户的金融服务风险预测请求之前,还包括:

自多个用户的历史用户金融信息中分别提取符合数值型特征的数值数据集和符合字符型特征的字符数据集;

获取所述数值数据集中各个元素列各自对应的多个切分点;

应用所述spark系统对各个所述切分点分别进行决策树计算,以得到各个所述切分点的基尼系数值;

将各个所述元素列各自对应的多个切分点中的基尼系数值最小的切分点,分别确定为对应的各个元素列的最优切分点;

根据各个所述元素列的最优切分点生成最优分箱切分点列表;

基于所述最优分箱切分点列表、各个元素列和所述字符数据集,生成多个用户的历史用户金融信息对应的目标数据集。

进一步地,所述获取所述数值数据集中各个元素列各自对应的多个切分点,包括:

若经查找获知所述数值数据集中各个元素列中有缺失值,则应用存在缺失值的元素列中的最小值补缺该缺失值;

对各个所述元素列中的各数值进行去重处理;

将各个所述元素列中的各数值分别按照从小到大的顺序进行排序,将排序后的各个所述元素列中的各数值分别确定为初始切分点;

判断各个所述元素列各自对应的初始切分点的数量是否大于数量阈值,若存在初始切分点的数量大于数量阈值的元素列,则在该元素列中随机选取等于数量阈值的数值确定为该元素列的切分点;

若存在初始切分点的数量小于或等于数量阈值的元素列,则将该元素列中的各个所述初始切分点分别确定为该元素列的切分点。

进一步地,所述基于所述最优分箱切分点列表、各个元素列和所述字符数据集,生成多个用户的历史用户金融信息对应的目标数据集,包括:

应用所述spark系统,基于所述最优分箱切分点列表对各个所述元素列并行执行预设的二分法查找步骤,以得到各个所述元素列各自对应的离散化元素列;

将各个所述离散化元素列分别与所述字符数据集进行拼接,得到多个用户的历史用户金融信息对应的目标数据集。

进一步地,所述二分法查找步骤包括:

应用spark系统中的二分查找算法,获取各个所述元素列中的各个数值对应在所述最优分箱切分点列表中的所在箱段的索引编号,并应用获取的索引编号分别替换各自对应在所述元素列中的数值。

进一步地,所述目标数据集包括训练集;

相对应的,在所述接收针对目标用户的金融服务风险预测请求之前,还包括:

应用所述训练集训练得到金融服务风险预测模型。

进一步地,所述目标数据集还包括测试集;

相对应的,在所述应用所述训练集训练得到金融服务风险预测模型之后,还包括:

基于所述测试集对所述金融服务风险预测模型进行效果测试,并基于对应的效果测试结果调整该金融服务风险预测模型。

第二方面,本申请提供一种金融服务风险预测装置,包括:

请求接收模块,用于接收针对目标用户的金融服务风险预测请求,其中,该金融服务风险预测请求中包含有所述目标用户的用户金融信息及对应的金融服务请求类型;

模型选取模块,用于基于所述金融服务请求类型,在预设的多个金融服务风险预测模型中择一作为目标金融服务风险预测模型,其中,各个所述金融服务风险预测模型分别应用各自对应的训练集训练而得,且所述训练集为预先应用spark系统对多个用户的历史用户金融信息进行数据分箱后得到的目标数据集;

风险预测模块,用于将所述目标用户的用户金融信息输入所述目标金融服务风险预测模型,并将该目标金融服务风险预测模型的输出作为所述目标用户的金融服务风险预测结果。

进一步地,所述金融服务请求类型包括:用户类别、金融贷款的申请类型、申请状态和请求类型;

相对应的,所述请求接收模块用于执行下述内容:

根据所述目标用户的用户类别、金融贷款的申请类型、申请状态和请求类型,在预设的模型表中选取与所述目标用户的用户类别、金融贷款的申请类型、申请状态和请求类型均对应的一个金融服务风险预测模型,并将该金融服务风险预测模型确定为所述目标用户当前对应的目标金融服务风险预测模型。

进一步地,还包括:

数据划分模块,用于自多个用户的历史用户金融信息中分别提取符合数值型特征的数值数据集和符合字符型特征的字符数据集;

切分点获取模块,用于获取所述数值数据集中各个元素列各自对应的多个切分点;

决策树计算模块,用于应用所述spark系统对各个所述切分点分别进行决策树计算,以得到各个所述切分点的基尼系数值;

最优切分点获取模块,用于将各个所述元素列各自对应的多个切分点中的基尼系数值最小的切分点,分别确定为对应的各个元素列的最优切分点;

列表生成模块,用于根据各个所述元素列的最优切分点生成最优分箱切分点列表;

目标数据集生成模块,用于基于所述最优分箱切分点列表、各个元素列和所述字符数据集,生成多个用户的历史用户金融信息对应的目标数据集。

进一步地,所述切分点获取模块用于执行下述内容:

若经查找获知所述数值数据集中各个元素列中有缺失值,则应用存在缺失值的元素列中的最小值补缺该缺失值;

对各个所述元素列中的各数值进行去重处理;

将各个所述元素列中的各数值分别按照从小到大的顺序进行排序,将排序后的各个所述元素列中的各数值分别确定为初始切分点;

判断各个所述元素列各自对应的初始切分点的数量是否大于数量阈值,若存在初始切分点的数量大于数量阈值的元素列,则在该元素列中随机选取等于数量阈值的数值确定为该元素列的切分点;

若存在初始切分点的数量小于或等于数量阈值的元素列,则将该元素列中的各个所述初始切分点分别确定为该元素列的切分点。

进一步地,所述目标数据集生成模块用于执行下述内容:

应用所述spark系统,基于所述最优分箱切分点列表对各个所述元素列并行执行预设的二分法查找步骤,以得到各个所述元素列各自对应的离散化元素列;

将各个所述离散化元素列分别与所述字符数据集进行拼接,得到多个用户的历史用户金融信息对应的目标数据集。

进一步地,所述目标数据集生成模块还包括:二分查找单元;

所述二分查找单元用于执行所述二分法查找步骤,该二分法查找步骤包括:应用spark系统中的二分查找算法,获取各个所述元素列中的各个数值对应在所述最优分箱切分点列表中的所在箱段的索引编号,并应用获取的索引编号分别替换各自对应在所述元素列中的数值。

进一步地,所述目标数据集包括训练集;

相对应的,所述金融服务风险预测装置还包括:

模型训练模块,用于应用所述训练集训练得到金融服务风险预测模型。

进一步地,所述目标数据集还包括测试集;

相对应的,所述金融服务风险预测装置还包括:

模型测试模块,用于基于所述测试集对所述金融服务风险预测模型进行效果测试,并基于对应的效果测试结果调整该金融服务风险预测模型。

第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的金融服务风险预测方法。

第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的金融服务风险预测方法。

由上述技术方案可知,本申请提供的一种金融服务风险预测方法及装置,方法包括:接收针对目标用户的金融服务风险预测请求,其中,该金融服务风险预测请求中包含有所述目标用户的用户金融信息及对应的金融服务请求类型;基于所述金融服务请求类型,在预设的多个金融服务风险预测模型中择一作为目标金融服务风险预测模型,其中,各个所述金融服务风险预测模型分别应用各自对应的训练集训练而得,且所述训练集为预先应用spark系统对多个用户的历史用户金融信息进行数据分箱后得到的目标数据集;将所述目标用户的用户金融信息输入所述目标金融服务风险预测模型,并将该目标金融服务风险预测模型的输出作为所述目标用户的金融服务风险预测结果,通过针对不同的请求类型进行不同的模型预测,能够有效提高金融服务风险预测的应用广泛性,并有效提高针对各类预测请求进行风险预测的效率;通过应用spark系统对多个用户的历史金融信息进行数据分箱,能够有效提高训练用数据的分箱过程的可靠性、效率及自动化程度,通过应用经用spark系统进行数据分箱后的数据集训练得到金融服务风险预测模型,能够有效提高金融服务风险预测模型的应用可靠性及稳定性,减少了对特征信息的损失,使得进入模型的数据集保留了更多自身特征信息,从而有助于模型过拟合风险的降低和数据模型准确率和稳定性的提升;通过应用金融服务风险预测模型对目标用户进行金融服务风险预测,能够有效提高金融服务风险预测过程的准确性、效率及自动化程度,并有效降低金融机构的人力成本及时间成本,进而能够有效提高金融机构识别风险用户的准确性及效率,例如可以对金融机构的用户申请各类金融贷款的用户或企业的包括贷前、贷中和贷后的信用风险评级或违约风险概率进行快速且准确地预测,并能够有效提高金融机构运转的安全性及稳定性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例中的金融服务风险预测方法的流程示意图。

图2是本申请实施例中的包含有步骤110的金融服务风险预测方法的流程示意图。

图3是本申请实施例中的金融服务风险预测方法中步骤010至060的流程示意图。

图4是本申请实施例中的包含有步骤070的金融服务风险预测方法的流程示意图。

图5是本申请实施例中的包含有步骤080的金融服务风险预测方法的流程示意图。

图6是本申请实施例中的金融服务风险预测装置的第一种结构示意图。

图7是本申请实施例中的金融服务风险预测装置的第二种结构示意图。

图8是本申请实施例中的金融服务风险预测装置的第三种结构示意图。

图9是本申请实施例中的金融服务风险预测装置的第四种结构示意图。

图10是本申请应用实例提供的金融服务风险预测系统的结构示意图。

图11是本申请应用实例提供的预处理单元的结构示意图。

图12是本申请应用实例提供的决策树分箱单元的结构示意图。

图13是本申请应用实例提供的特征离散化单元的结构示意图。

图14是本申请实施例中的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

数据分箱(也称离散分箱)是一种数据预处理技术,也是数据挖掘特征工程中重要的一个数据处理操作。用于减少次要观察误差的影响,提升模型稳定性,降低模型过拟合风险,是一种将多个连续值分组为较少数量的“分箱”的方法。目前,常用的分箱方法主要分为有监督的卡方分箱、最小熵法分箱和无监督的等距分箱、等频分箱等。

由于无监督的分箱方法,但存在没有考虑因变量的问题,不利于模型效果的提升,另外,卡方等有监督分箱方法的运算过程复杂且费时耗力。

为优化线性分箱对于分布不均匀的数据集的表现不稳定、需要人工手动干涉等问题,并且,针对大规模数据集的处理和建模,为提升计算处理速度,亟需一种最优分箱方法、快速高效通用计算框架的应用。

基于此,考虑到现有的金融服务风险预测过程存在的无法同时满足金融服务风险预测的准确性及效率的问题,本申请实施例提供一种金融服务风险预测方法、金融服务风险预测装置、电子设备及计算机可读存储介质,通过接收针对目标用户的金融服务风险预测请求,其中,该金融服务风险预测请求中包含有所述目标用户的用户金融信息及对应的金融服务请求类型;基于所述金融服务请求类型,在预设的多个金融服务风险预测模型中择一作为目标金融服务风险预测模型,其中,各个所述金融服务风险预测模型分别应用各自对应的训练集训练而得,且所述训练集为预先应用spark系统对多个用户的历史金融信息进行数据分箱后得到的数据集;将所述目标用户的用户金融信息输入所述目标金融服务风险预测模型,并将该目标金融服务风险预测模型的输出作为所述目标用户的金融服务风险预测结果,通过针对不同的请求类型进行不同的模型预测,能够有效提高金融服务风险预测的应用广泛性,并有效提高针对各类预测请求进行风险预测的效率;通过应用spark系统对多个用户的历史金融信息进行数据分箱,能够有效提高训练用数据的分箱过程的可靠性、效率及自动化程度,通过应用经用spark系统进行数据分箱后的数据集训练得到金融服务风险预测模型,能够有效提高金融服务风险预测模型的应用可靠性及稳定性,减少了对特征信息的损失,使得进入模型的数据集保留了更多自身特征信息,从而有助于模型过拟合风险的降低和数据模型准确率和稳定性的提升;通过应用金融服务风险预测模型对目标用户进行金融服务风险预测,能够有效提高金融服务风险预测过程的准确性、效率及自动化程度,并有效降低金融机构的人力成本及时间成本,进而能够有效提高金融机构识别风险用户的准确性及效率,例如可以对金融机构的用户申请各类金融贷款的用户或企业的包括贷前、贷中和贷后的信用风险评级或违约风险概率进行快速且准确地预测,并能够有效提高金融机构运转的安全性及稳定性。

具体通过下述多个实施例分别进行说明。

为了解决现有的金融服务风险预测过程,无法同时满足金融服务风险预测的准确性及效率的问题,本申请提供一种金融服务风险预测方法的实施例,参见图1,所述金融服务风险预测方法具体包含有如下内容:

步骤100:接收针对目标用户的金融服务风险预测请求,其中,该金融服务风险预测请求中包含有所述目标用户的用户金融信息及对应的金融服务请求类型。

可以理解的是,所述目标用户的用户金融信息包含有用户在预设时间段内的历史交易数据或交易请求等内容。所述用户金融信息的具体举例可以为个人或企业的征信、资产流水以及缴税等数据信息。

可以理解的是,所述金融服务请求类型包括:用户类别、金融贷款的申请类型、申请状态和请求类型。具体包含有如下内容:

所述用户类别具体可以包含有:个人用户和企业用户等。

所述金融贷款的申请类型具体可以包含有:质押贷、房贷、车贷、装修贷、旅游贷、经营贷和教育贷等。

所述金融贷款的申请状态具体可以包含有:贷前、贷中和贷后等。

所述请求类型具体可以包含有:信用风险评级请求和违约风险概率预测请求等。

步骤200:基于所述金融服务请求类型,在预设的多个金融服务风险预测模型中择一作为目标金融服务风险预测模型,其中,各个所述金融服务风险预测模型分别应用各自对应的训练集训练而得,且所述训练集为预先应用spark系统对多个用户的历史用户金融信息进行数据分箱后得到的目标数据集。

在步骤200中,spark系统是针对大规模数据的快速通用的集群计算引擎。决策树算法可以根据变量与因变量的具体关系,对变量特征进行最优分箱。通过运用决策树算法、递归方法,实现连续型数值特征的最优分箱,并且使用spark的rdd数据集表示、select、map等操作方法和二分查找方法,快速实现业务数据大宽表中连续特征的离散化,达到提高模型准确率、加快大规模数据计算速度的目的。

步骤300:将所述目标用户的用户金融信息输入所述目标金融服务风险预测模型,并将该目标金融服务风险预测模型的输出作为所述目标用户的金融服务风险预测结果。

可以理解的是,所述金融服务风险预测模型具体可以为通过机器学习的模型算法训练获得分类或回归模型用于信用风险评级或违约风险概率。可以但不限于:逻辑回归lr模型,广义线性回归glm模型,梯度提升决策树gbdt模型以及提升树xgboost模型等。

从上述描述可知,本申请实施例提供的金融服务风险预测方法,通过针对不同的请求类型进行不同的模型预测,能够有效提高金融服务风险预测的应用广泛性,并有效提高针对各类预测请求进行风险预测的效率;通过应用spark系统对多个用户的历史金融信息进行数据分箱,能够有效提高训练用数据的分箱过程的可靠性、效率及自动化程度,通过应用经用spark系统进行数据分箱后的数据集训练得到金融服务风险预测模型,能够有效提高金融服务风险预测模型的应用可靠性及稳定性,减少了对特征信息的损失,使得进入模型的数据集保留了更多自身特征信息,从而有助于模型过拟合风险的降低和数据模型准确率和稳定性的提升;通过应用金融服务风险预测模型对目标用户进行金融服务风险预测,能够有效提高金融服务风险预测过程的准确性、效率及自动化程度,并有效降低金融机构的人力成本及时间成本,进而能够有效提高金融机构识别风险用户的准确性及效率,例如可以对金融机构的用户申请各类金融贷款的个人或企业的包括贷前、贷中和贷后的信用风险评级或违约风险概率进行快速且准确地预测,并能够有效提高金融机构运转的安全性及稳定性。

为了提供一种预测应用过程的优选方式,在本申请提供的金融服务风险预测方法的一个实施例中,所述金融服务请求类型包括:用户类别、金融贷款的申请类型、申请状态和请求类型;参见图2,所述金融服务风险预测方法中的步骤100具体包含有如下内容:

步骤110:根据所述目标用户的用户类别、金融贷款的申请类型、申请状态和请求类型,在预设的模型表中选取与所述目标用户的用户类别、金融贷款的申请类型、申请状态和请求类型均对应的一个金融服务风险预测模型,并将该金融服务风险预测模型确定为所述目标用户当前对应的目标金融服务风险预测模型。

可以理解的是,所述模型表中用于存储各个用户的用户类别、金融贷款的申请类型、申请状态、请求类型和金融服务风险预测模型之间的对应关系。具体举例参见如下表1。

表1

基于上述表1可知,若当前接收到的目标用户的金融服务风险预测请求中包含的金融服务请求类型中的所述用户类别为企业用户、所述金融贷款的申请类型为车贷,且所述金融贷款的申请状态为贷前、所述请求类型为信用风险评级请求,则在所述模型表中查找到对应的金融服务风险预测模型为模型11,并将该模型11作为所述目标用户当前的目标金融服务风险预测模型。

在模型表中,各个金融服务风险预测模型之间的区别在于训练用数据选取的不同,且每个金融服务风险预测模型均应用其在模型表中对应的用户类别、金融贷款的申请类型、申请状态和请求类型对应的用户历史数据进行训练得到。

从上述描述可知,本申请实施例提供的金融服务风险预测方法,能够进一步有效提高金融服务风险预测的应用广泛性,并有效提高针对各类预测请求进行风险预测的效率,能够对金融机构的用户申请各类金融贷款的个人或企业的包括贷前、贷中和贷后的信用风险评级或违约风险概率进行快速且准确地预测,并能够有效提高金融机构运转的安全性及稳定性。

为了提供一种spark系统中的决策树应用,在本申请提供的金融服务风险预测方法的一个实施例中,参见图3,所述金融服务风险预测方法中的步骤100之前还具体包含有如下内容:

步骤010:自多个用户的历史用户金融信息中分别提取符合数值型特征的数值数据集和符合字符型特征的字符数据集。

步骤020:获取所述数值数据集中各个元素列各自对应的多个切分点。

步骤030:应用所述spark系统对各个所述切分点分别进行决策树计算,以得到各个所述切分点的基尼系数值。

步骤040:将各个所述元素列各自对应的多个切分点中的基尼系数值最小的切分点,分别确定为对应的各个元素列的最优切分点。

步骤050:根据各个所述元素列的最优切分点生成最优分箱切分点列表。

步骤060:基于所述最优分箱切分点列表、各个元素列和所述字符数据集,生成多个用户的历史用户金融信息对应的目标数据集。

从上述描述可知,本申请实施例提供的金融服务风险预测方法,决策树方法根据特征对应标签值选取切分点,很大程度保留并使用了特征的自身信息,避免了线性分箱方法选取切分点存在的表现不稳定、人工干预的主观性等问题。对每一特征的所有可能的切分点计算gini指数,按照可调整的树深和分箱段数等参数输出分箱切分点,实现特征数据离散化的最优分类。

为了提供一种切分点设置的优选方式,在本申请提供的金融服务风险预测方法的一个实施例中,所述金融服务风险预测方法中的步骤020具体包含有如下内容:

步骤021:若经查找获知所述数值数据集中各个元素列中有缺失值,则应用存在缺失值的元素列中的最小值补缺该缺失值。

步骤022:对各个所述元素列中的各数值进行去重处理。

步骤023:将各个所述元素列中的各数值分别按照从小到大的顺序进行排序,将排序后的各个所述元素列中的各数值分别确定为初始切分点。

步骤024:判断各个所述元素列各自对应的初始切分点的数量是否大于数量阈值,若存在初始切分点的数量大于数量阈值的元素列,则执行步骤025:在该元素列中随机选取等于数量阈值的数值确定为该元素列的切分点。

若存在初始切分点的数量小于或等于数量阈值的元素列,则执行步骤026:将该元素列中的各个所述初始切分点分别确定为该元素列的切分点。

从上述描述可知,本申请实施例提供的金融服务风险预测方法,能够有效提高切分点设置的可靠性及效率,进而能够有效提高获取最优分箱切分点列表的准确性和效率,进而能够有效提高训练用数据的分箱过程的可靠性、效率及自动化程度。

为了提供一种spark中的并行计算方式,在本申请提供的金融服务风险预测方法的一个实施例中,所述金融服务风险预测方法中的步骤060具体包含有如下内容:

步骤061:应用所述spark系统,基于所述最优分箱切分点列表对各个所述元素列并行执行预设的二分法查找步骤,以得到各个所述元素列各自对应的离散化元素列。

步骤062:将各个所述离散化元素列分别与所述字符数据集进行拼接,得到多个用户的历史用户金融信息对应的目标数据集。

从上述描述可知,本申请实施例提供的金融服务风险预测方法,spark的rdd可并行计算数据集合及其select、map等操作方法,通过分布式并行计算实现了大规模运算的快速度和高效率。

为了提供一种spark中的二分查找计算方式,在本申请提供的金融服务风险预测方法的一个实施例中,所述金融服务风险预测方法中的二分法查找步骤具体包含有如下内容:

应用spark系统中的二分查找算法,获取各个所述元素列中的各个数值对应在所述最优分箱切分点列表中的所在箱段的索引编号,并应用获取的索引编号分别替换各自对应在所述元素列中的数值。

从上述描述可知,本申请实施例提供的金融服务风险预测方法,能够按照可调整的树深和分箱段数等参数输出分箱切分点,实现特征数据离散化的最优分类。

为了对分箱结果进行模型训练,在本申请提供的金融服务风险预测方法的一个实施例中,所述目标数据集包括训练集;参见图4,所述金融服务风险预测方法中的步骤060之后以及步骤100之前还具体包含有如下内容:

步骤070:应用所述训练集训练得到金融服务风险预测模型。

从上述描述可知,本申请实施例提供的金融服务风险预测方法,能够有效提高金融服务风险预测模型的应用可靠性及稳定性,减少了对特征信息的损失,使得进入模型的数据集保留了更多自身特征信息,从而有助于模型过拟合风险的降低和数据模型准确率和稳定性的提升。

为了对分箱结果进行模型测试,在本申请提供的金融服务风险预测方法的一个实施例中,所述目标数据集包括训练集;参见图5,所述金融服务风险预测方法中的步骤070之后以及步骤100之前还具体包含有如下内容:

步骤080:基于所述测试集对所述金融服务风险预测模型进行效果测试,并基于对应的效果测试结果调整该金融服务风险预测模型。

从上述描述可知,本申请实施例提供的金融服务风险预测方法,能够进一步提高金融服务风险预测模型的应用可靠性及稳定性,减少了对特征信息的损失,使得进入模型的数据集保留了更多自身特征信息,从而有助于模型过拟合风险的降低和数据模型准确率和稳定性的提升。

从软件层面来说,为了解决现有的金融服务风险预测过程,无法同时满足金融服务风险预测的准确性及效率的问题,本申请提供一种用于执行所述金融服务风险预测方法中全部或部分内容的金融服务风险预测装置的实施例,参见图6,所述金融服务风险预测装置具体包含有如下内容:

请求接收模块10,用于接收针对目标用户的金融服务风险预测请求,其中,该金融服务风险预测请求中包含有所述目标用户的用户金融信息及对应的金融服务请求类型。

可以理解的是,所述目标用户的用户金融信息包含有用户在预设时间段内的历史交易数据或交易请求等内容。

可以理解的是,所述金融服务请求类型包括:用户类别、金融贷款的申请类型、申请状态和请求类型。具体包含有如下内容:

所述用户类别具体可以包含有:个人用户和企业用户等。

所述金融贷款的申请类型具体可以包含有:质押贷、房贷、车贷、装修贷、旅游贷、经营贷和教育贷等。

所述金融贷款的申请状态具体可以包含有:贷前、贷中和贷后等。

所述请求类型具体可以包含有:信用风险评级请求和违约风险概率预测请求等。

模型选取模块20,用于基于所述金融服务请求类型,在预设的多个金融服务风险预测模型中择一作为目标金融服务风险预测模型,其中,各个所述金融服务风险预测模型分别应用各自对应的训练集训练而得,且所述训练集为预先应用spark系统对多个用户的历史用户金融信息进行数据分箱后得到的目标数据集。

在步骤200中,spark系统是针对大规模数据的快速通用的集群计算引擎。决策树算法可以根据变量与因变量的具体关系,对变量特征进行最优分箱。通过运用决策树算法、递归方法,实现连续型数值特征的最优分箱,并且使用spark的rdd数据集表示、select、map等操作方法和二分查找方法,快速实现业务数据大宽表中连续特征的离散化,达到提高模型准确率、加快大规模数据计算速度的目的。

风险预测模块30,用于将所述目标用户的用户金融信息输入所述目标金融服务风险预测模型,并将该目标金融服务风险预测模型的输出作为所述目标用户的金融服务风险预测结果。

可以理解的是,所述金融服务风险预测模型具体可以为通过机器学习的模型算法训练获得分类或回归模型用于信用风险评级或违约风险概率。可以但不限于:逻辑回归lr模型,广义线性回归glm模型,梯度提升决策树gbdt模型以及提升树xgboost模型等。

从上述描述可知,本申请实施例提供的金融服务风险预测装置,通过针对不同的请求类型进行不同的模型预测,能够有效提高金融服务风险预测的应用广泛性,并有效提高针对各类预测请求进行风险预测的效率;通过应用spark系统对多个用户的历史金融信息进行数据分箱,能够有效提高训练用数据的分箱过程的可靠性、效率及自动化程度,通过应用经用spark系统进行数据分箱后的数据集训练得到金融服务风险预测模型,能够有效提高金融服务风险预测模型的应用可靠性及稳定性,减少了对特征信息的损失,使得进入模型的数据集保留了更多自身特征信息,从而有助于模型过拟合风险的降低和数据模型准确率和稳定性的提升;通过应用金融服务风险预测模型对目标用户进行金融服务风险预测,能够有效提高金融服务风险预测过程的准确性、效率及自动化程度,并有效降低金融机构的人力成本及时间成本,进而能够有效提高金融机构识别风险用户的准确性及效率,例如可以对金融机构的用户申请各类金融贷款的个人或企业的包括贷前、贷中和贷后的信用风险评级或违约风险概率进行快速且准确地预测,并能够有效提高金融机构运转的安全性及稳定性。

为了提供一种预测应用过程的优选方式,在本申请提供的金融服务风险预测装置的一个实施例中,所述金融服务请求类型包括:用户类别、金融贷款的申请类型、申请状态和请求类型;所述金融服务风险预测装置中的请求接收模块10用于执行下述内容:

根据所述目标用户的用户类别、金融贷款的申请类型、申请状态和请求类型,在预设的模型表中选取与所述目标用户的用户类别、金融贷款的申请类型、申请状态和请求类型均对应的一个金融服务风险预测模型,并将该金融服务风险预测模型确定为所述目标用户当前对应的目标金融服务风险预测模型。

从上述描述可知,本申请实施例提供的金融服务风险预测装置,能够进一步有效提高金融服务风险预测的应用广泛性,并有效提高针对各类预测请求进行风险预测的效率,能够对金融机构的用户申请各类金融贷款的个人或企业的包括贷前、贷中和贷后的信用风险评级或违约风险概率进行快速且准确地预测,并能够有效提高金融机构运转的安全性及稳定性。

为了提供一种spark系统中的决策树应用,在本申请提供的金融服务风险预测装置的一个实施例中,参见图7,所述金融服务风险预测装置中还具体包含有如下内容:

数据划分模块01,用于自多个用户的历史用户金融信息中分别提取符合数值型特征的数值数据集和符合字符型特征的字符数据集。

切分点获取模块02,用于获取所述数值数据集中各个元素列各自对应的多个切分点。

决策树计算模块03,用于应用所述spark系统对各个所述切分点分别进行决策树计算,以得到各个所述切分点的基尼系数值。

最优切分点获取模块04,用于将各个所述元素列各自对应的多个切分点中的基尼系数值最小的切分点,分别确定为对应的各个元素列的最优切分点。

列表生成模块05,用于根据各个所述元素列的最优切分点生成最优分箱切分点列表。

目标数据集生成模块06,用于基于所述最优分箱切分点列表、各个元素列和所述字符数据集,生成多个用户的历史用户金融信息对应的目标数据集。

从上述描述可知,本申请实施例提供的金融服务风险预测装置,决策树方法根据特征对应标签值选取切分点,很大程度保留并使用了特征的自身信息,避免了线性分箱方法选取切分点存在的表现不稳定、人工干预的主观性等问题。对每一特征的所有可能的切分点计算gini指数,按照可调整的树深和分箱段数等参数输出分箱切分点,实现特征数据离散化的最优分类。

为了提供一种切分点设置的优选方式,在本申请提供的金融服务风险预测装置的一个实施例中,所述金融服务风险预测装置中的切分点获取模块02具体用于执行下述内容:

步骤021:若经查找获知所述数值数据集中各个元素列中有缺失值,则应用存在缺失值的元素列中的最小值补缺该缺失值。

步骤022:对各个所述元素列中的各数值进行去重处理。

步骤023:将各个所述元素列中的各数值分别按照从小到大的顺序进行排序,将排序后的各个所述元素列中的各数值分别确定为初始切分点。

步骤024:判断各个所述元素列各自对应的初始切分点的数量是否大于数量阈值,若存在初始切分点的数量大于数量阈值的元素列,则执行步骤025:在该元素列中随机选取等于数量阈值的数值确定为该元素列的切分点。

若存在初始切分点的数量小于或等于数量阈值的元素列,则执行步骤026:将该元素列中的各个所述初始切分点分别确定为该元素列的切分点。

从上述描述可知,本申请实施例提供的金融服务风险预测装置,能够有效提高切分点设置的可靠性及效率,进而能够有效提高获取最优分箱切分点列表的准确性和效率,进而能够有效提高训练用数据的分箱过程的可靠性、效率及自动化程度。

为了提供一种spark中的并行计算方式,在本申请提供的金融服务风险预测装置的一个实施例中,所述金融服务风险预测装置中的目标数据集生成模块06具体用于执行下述内容:

步骤061:应用所述spark系统,基于所述最优分箱切分点列表对各个所述元素列并行执行预设的二分法查找步骤,以得到各个所述元素列各自对应的离散化元素列。

步骤062:将各个所述离散化元素列分别与所述字符数据集进行拼接,得到多个用户的历史用户金融信息对应的目标数据集。

从上述描述可知,本申请实施例提供的金融服务风险预测装置,spark的rdd可并行计算数据集合及其select、map等操作方法,通过分布式并行计算实现了大规模运算的快速度和高效率。

为了提供一种spark中的二分查找计算方式,在本申请提供的金融服务风险预测装置的一个实施例中,所述金融服务风险预测装置中的目标数据集生成模块06中还具体包含有如下内容:二分查找单元。

所述二分查找单元用于执行所述二分法查找步骤,该二分法查找步骤包括:应用spark系统中的二分查找算法,获取各个所述元素列中的各个数值对应在所述最优分箱切分点列表中的所在箱段的索引编号,并应用获取的索引编号分别替换各自对应在所述元素列中的数值。

从上述描述可知,本申请实施例提供的金融服务风险预测装置,能够按照可调整的树深和分箱段数等参数输出分箱切分点,实现特征数据离散化的最优分类。

为了对分箱结果进行模型训练,在本申请提供的金融服务风险预测装置的一个实施例中,所述目标数据集包括训练集;参见图8,所述金融服务风险预测装置中还具体包含有如下内容:

模型训练模块07,用于应用所述训练集训练得到金融服务风险预测模型。

从上述描述可知,本申请实施例提供的金融服务风险预测装置,能够有效提高金融服务风险预测模型的应用可靠性及稳定性,减少了对特征信息的损失,使得进入模型的数据集保留了更多自身特征信息,从而有助于模型过拟合风险的降低和数据模型准确率和稳定性的提升。

为了对分箱结果进行模型测试,在本申请提供的金融服务风险预测装置的一个实施例中,所述目标数据集包括训练集;参见图9,所述金融服务风险预测装置中还具体包含有如下内容:

模型测试模块08,用于基于所述测试集对所述金融服务风险预测模型进行效果测试,并基于对应的效果测试结果调整该金融服务风险预测模型。

从上述描述可知,本申请实施例提供的金融服务风险预测装置,能够进一步提高金融服务风险预测模型的应用可靠性及稳定性,减少了对特征信息的损失,使得进入模型的数据集保留了更多自身特征信息,从而有助于模型过拟合风险的降低和数据模型准确率和稳定性的提升。

为了进一步说明本方案,本申请还提供一种应用金融服务风险预测系统实现所述金融服务风险预测方法的具体应用实例,参见图10,所述金融服务风险预测系统主要由数据大宽表单元1、预处理单元2、特征抽取单元3、建模单元4和模型评估单元5。其中,本申请应用实例提出的基于spark的决策树分箱过程主要体现在预处理单元2。

预处理单元2在全流程上介于数据大宽表单元1的源数据导入和特征抽取单元3之间,主要任务是对数据集中的连续特征进行离散化,然后将分箱离散化的数据集输出给特征抽取单元3,以供后续模型训练。如图11所示,具体包括数据集拆分单元21、决策树分箱单元22和特征离散化单元23。其中:

数据集拆分单元21,用于对数据大宽表单元1中的数据集进行拆分,输出训练集和测试集两部分。

决策树分箱单元22,用于对数据集中的连续型特征列进行决策树算法建模实现每个连续特征列最优分箱规则的输出。为避免后续建模出现特征穿越的可能,本方法中仅针对训练集数据进行决策树分箱规则学习,以保证测试集的独立性。具体的决策树算法分箱实现。

特征离散化单元23,用于根据决策树单元22中从训练集中学习到的最优分箱规则,使用二分查找、spark操作方法分别实现训练集和测试集的连续数据特征列完成离散化,对应输出离散特征数据集,即训练集_离散特征和测试集_离散特征,作为后续特征抽取和建模的训练集和测试集输入。

决策树分箱单元22的主要任务是针对训练集数据运用决策树算法进行递归训练,学习并输出每一特征列的最优分箱规则。参见图12,决策树分箱单元22主要包含有:

特征列分类单元22_1,对训练集大宽表中所有特征列训练逐一判断其数据类型,并将所有特征列划分成字符型特征和数值型特征两类。

缺失值填充单元22_2,针对数值型特征列,判断样本中是否存在缺失值,对有缺失值的,计算该列数值样本的最小值并对缺失值进行填充。

所有可能切分点计算单元22_3,对每一特征列的所有元素取值进行去重并按照数值从小到大排序,从而得到该特征的所有可能切分点。其中,对于所有可能切分点数量过多,可根据预设阈值从中随机选取一定数量的切分点。这一处理有效减少了后续最优分箱切分点筛选的计算量。

gini指数计算单元22_4,用于定义gini指数(基尼系数)的计算逻辑,根据某一特征列元素集合d和一个切分点,计算返回该切分点的gini指数。

构建决策树单元22_5,根据设定的决策树深度、分箱切分点数量等参数,通过调用gini指数计算单元22_4,针对所有可能切分点计算其gini指数,获得最优切分点并将训练集进行切分。这一决策树分箱单元进行递归处理,直到筛选出设定数量的最优分箱切分点。

最优分箱存储单元22_6,将计算结果即训练集中的所有特征列的最优分箱切分点列表,以spark的表格型数据结构dataframe进行存储,保存至磁盘以备调用。

训练集和测试集都要进行特征离散化单元23的计算处理。参见图13,特征离散化单元23具体包含有如下内容:

训练集23_1和测试集23_2,分别获得数据集拆分单元21输出的训练集和测试集的特征大宽表。

最优分箱导入单元23_3,使用spark导入并读取最优分箱存储单元22_6保存的分箱规则结果。

spark计算单元23_4,运用spark可并行计算的rdd数据集表示和select、map操作方法提高运算效率。其中,select方法实现某一特征列所有元素的筛选和该列对应最优分箱列表的筛选,map方法实现每一元素的并行二分查找。

二分查找单元23_5,针对某特征列的某一元素,使用二分查找方法,从该列的最优分箱列表中对应找出其所在箱段的索引编号,并用索引编号替换该元素实现该列连续型特征的离散化。

训练集_特征单元23_6,对训练集中的所有连续特征经spark计算单元23_4和二分查找单元23_5的操作,得到离散化的数值型特征列。再将其与不需分箱处理的字符型特征列进行拼接,输出完整的可供模型直接使用的训练数据集。

测试集_特征单元23_7,针对测试集进行同训练集_特征单元23_6一致的操作处理,输出完整的可供模型直接使用的测试数据集。

其中,rdd(弹性分布式数据集resilientdistributeddataset),是spark中最基本的数据抽象,是可并行计算的数据集合。rdd的使用通过并行计算的方式极大提升对数据的查询速度,针对可并行计算的rdd通过map操作从而对其中每个元素快速完成决策树构建过程中的函数计算。

基于上述内容,通过金融服务风险预测系统实现金融服务风险预测方法的具体过程如下:

s1:对导入数据大宽表单元1的源数据的数据集,根据数据集总量按照设定比例进行拆分,输出训练集和测试集两部分。

s2:对训练集中所有特征列,逐一进行浮点数转化以判断其数据类型。可转化则为数值型特征,反之则为字符型特征。

s3:针对数值型特征列,判断样本中是否存在缺失值,对有缺失值的,计算该列数值样本的最小值并对缺失值进行填充。

s4:对每一数值特征列的所有元素取值进行去重并按照数值从小到大排序,从而得到该特征列的所有可能切分点。其中,对于所有可能切分点数量过多,可根据预设阈值从中随机选取一定数量的切分点。这一处理有效减少了后续最优分箱切分点筛选的计算量。

s5:定义gini指数的计算逻辑,根据某一特征列元素集合d和一个切分点,计算返回该切分点的gini指数。

s6:根据设定的决策树深度、分箱切分点数量等参数,针对所有可能切分点计算其gini指数,选择gini指数最小的切分点作为最优切分点并将训练集进行切分。这一决策树分箱单元进行递归处理,直到筛选出设定数量的最优分箱切分点。

有样本集合d,其gini指数计算方式为:

ck是d中属于第k类的样本子集,k是类的个数(决策树多为二分类)。

如果样本集合d根据特征列a是否取某一可能值a被分割成d1和d2两部分,即:

d1={(x,y)∈d|a(x)=a},d2=d-d1

那么在特征列a的条件下,集合d的gini指数计算公式为:

s7:将计算结果即训练集中的所有特征列的最优分箱切分点列表c,以spark的表格型数据结构dataframe进行存储,保存至磁盘以备调用。

s8:使用spark导入并读取s7保存的分箱规则结果(最优分箱切分点列表c);

s9:对训练集中的所有连续特征经下述(1)和(2)的操作,得到离散化的数值型特征列。再将其与不需分箱处理的字符型特征列进行拼接,输出完整的可供模型直接使用的训练数据集atarget。

s10:针对测试集进行下述(1)和(2)的操作处理,输出完整的可供模型直接使用的测试数据集btarget。

(1)运用spark可并行计算的rdd数据集表示和select、map操作方法提高运算效率。其中,select方法实现某一特征列所有元素的筛选和该列对应最优分箱列表的筛选,map方法实现每一元素的并行二分查找。

(2)针对某特征列的某一元素,使用二分查找方法,从该列的最优分箱列表中对应找出其所在箱段的索引编号,并用索引编号替换该元素实现该列连续型特征的离散化。

本申请应用实例提出的方法和涉及的数据,应用于申请各类金融贷款的个人或企业的包括贷前、贷中和贷后的信用风险评级或违约风险概率。

针对源数据进行本申请应用实例提出的基于spark决策树分箱方法的处理,形成不含缺失值且特征编码规范的可直接输入模型的特征宽表数据集。进而通过机器学习的模型算法训练获得分类或回归模型用于信用风险评级或违约风险概率。对于使用到的机器学习模型,可以但不限于:逻辑回归lr模型,广义线性回归glm模型,梯度提升决策树gbdt模型以及提升树xgboost模型等。

从上述描述可知,本申请应用实例提供的金融服务风险预测方法,具有以下优点:

1、提高了大规模数据的处理速度。针对大规模级别且有千万特征的数据集,使用pandas数据结构进行操作存在消耗时间长和占用资源大的问题,spark的rdd可并行计算数据集合及其select、map等操作方法,通过分布式并行计算实现了大规模运算的快速度和高效率。

2、提高了分箱切分点的最优化。决策树方法根据特征对应标签值选取切分点,很大程度保留并使用了特征的自身信息,避免了线性分箱方法选取切分点存在的表现不稳定、人工干预的主观性等问题。对每一特征的所有可能的切分点计算gini指数,按照可调整的树深和分箱段数等参数输出分箱切分点,实现特征数据离散化的最优分类。

3、提高了模型准确率和稳定性。分箱规则学习部分仅选用训练集的处理,避免了特征穿越的可能,同时,决策树算法实现的最优分箱,减少了对特征信息的损失,使得进入模型的数据集保留了更多自身特征信息,从而有助于模型过拟合风险的降低和数据模型准确率和稳定性的提升。

4、模型效果前后对比分析,不进行分箱处理,模型评估指标auc值是0.662,经使用分箱方法处理,auc值提升至0.754。可见,基于spark的决策树分箱方法对于模型准确率效果起到了显著的提升作用。

从硬件层面来说,为了解决现有的金融服务风险预测过程,无法同时满足金融服务风险预测的准确性及效率的问题,本申请提供一种用于实现所述金融服务风险预测方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:

图14为本申请实施例的电子设备9600的系统构成的示意框图。如图14所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图14是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。

在一实施例中,金融服务风险预测功能可以被集成到中央处理器中。其中,中央处理器可以被配置为进行如下控制:

步骤100:接收针对目标用户的金融服务风险预测请求,其中,该金融服务风险预测请求中包含有所述目标用户的用户金融信息及对应的金融服务请求类型。

可以理解的是,所述目标用户的用户金融信息包含有用户在预设时间段内的历史交易数据或交易请求等内容。所述用户金融信息的具体举例可以为个人或企业的征信、资产流水以及缴税等数据信息。

可以理解的是,所述金融服务请求类型包括:用户类别、金融贷款的申请类型、申请状态和请求类型。具体包含有如下内容:

所述用户类别具体可以包含有:个人用户和企业用户等。

所述金融贷款的申请类型具体可以包含有:质押贷、房贷、车贷、装修贷、旅游贷、经营贷和教育贷等。

所述金融贷款的申请状态具体可以包含有:贷前、贷中和贷后等。

所述请求类型具体可以包含有:信用风险评级请求和违约风险概率预测请求等。

步骤200:基于所述金融服务请求类型,在预设的多个金融服务风险预测模型中择一作为目标金融服务风险预测模型,其中,各个所述金融服务风险预测模型分别应用各自对应的训练集训练而得,且所述训练集为预先应用spark系统对多个用户的历史用户金融信息进行数据分箱后得到的目标数据集。

在步骤200中,spark系统是针对大规模数据的快速通用的集群计算引擎。决策树算法可以根据变量与因变量的具体关系,对变量特征进行最优分箱。通过运用决策树算法、递归方法,实现连续型数值特征的最优分箱,并且使用spark的rdd数据集表示、select、map等操作方法和二分查找方法,快速实现业务数据大宽表中连续特征的离散化,达到提高模型准确率、加快大规模数据计算速度的目的。

步骤300:将所述目标用户的用户金融信息输入所述目标金融服务风险预测模型,并将该目标金融服务风险预测模型的输出作为所述目标用户的金融服务风险预测结果。

可以理解的是,所述金融服务风险预测模型具体可以为通过机器学习的模型算法训练获得分类或回归模型用于信用风险评级或违约风险概率。可以但不限于:逻辑回归lr模型,广义线性回归glm模型,梯度提升决策树gbdt模型以及提升树xgboost模型等。

从上述描述可知,本申请实施例提供的电子设备,通过针对不同的请求类型进行不同的模型预测,能够有效提高金融服务风险预测的应用广泛性,并有效提高针对各类预测请求进行风险预测的效率;通过应用spark系统对多个用户的历史金融信息进行数据分箱,能够有效提高训练用数据的分箱过程的可靠性、效率及自动化程度,通过应用经用spark系统进行数据分箱后的数据集训练得到金融服务风险预测模型,能够有效提高金融服务风险预测模型的应用可靠性及稳定性,减少了对特征信息的损失,使得进入模型的数据集保留了更多自身特征信息,从而有助于模型过拟合风险的降低和数据模型准确率和稳定性的提升;通过应用金融服务风险预测模型对目标用户进行金融服务风险预测,能够有效提高金融服务风险预测过程的准确性、效率及自动化程度,并有效降低金融机构的人力成本及时间成本,进而能够有效提高金融机构识别风险用户的准确性及效率,例如可以对金融机构的用户申请各类金融贷款的个人或企业的包括贷前、贷中和贷后的信用风险评级或违约风险概率进行快速且准确地预测,并能够有效提高金融机构运转的安全性及稳定性。

在另一个实施方式中,金融服务风险预测装置可以与中央处理器9100分开配置,例如可以将金融服务风险预测装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现金融服务风险预测功能。

如图14所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图14中所示的所有部件;此外,电子设备9600还可以包括图14中没有示出的部件,可以参考现有技术。

如图14所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为lcd显示器,但并不限于此。

该存储器9140可以是固态存储器,例如,只读存储器(rom)、随机存取存储器(ram)、sim卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为eprom等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。

基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。

本申请的实施例还提供能够实现上述实施例中的金融服务风险预测方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的金融服务风险预测方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:

步骤100:接收针对目标用户的金融服务风险预测请求,其中,该金融服务风险预测请求中包含有所述目标用户的用户金融信息及对应的金融服务请求类型。

可以理解的是,所述目标用户的用户金融信息包含有用户在预设时间段内的历史交易数据或交易请求等内容。所述用户金融信息的具体举例可以为个人或企业的征信、资产流水以及缴税等数据信息。

可以理解的是,所述金融服务请求类型包括:用户类别、金融贷款的申请类型、申请状态和请求类型。具体包含有如下内容:

所述用户类别具体可以包含有:个人用户和企业用户等。

所述金融贷款的申请类型具体可以包含有:质押贷、房贷、车贷、装修贷、旅游贷、经营贷和教育贷等。

所述金融贷款的申请状态具体可以包含有:贷前、贷中和贷后等。

所述请求类型具体可以包含有:信用风险评级请求和违约风险概率预测请求等。

步骤200:基于所述金融服务请求类型,在预设的多个金融服务风险预测模型中择一作为目标金融服务风险预测模型,其中,各个所述金融服务风险预测模型分别应用各自对应的训练集训练而得,且所述训练集为预先应用spark系统对多个用户的历史用户金融信息进行数据分箱后得到的目标数据集。

在步骤200中,spark系统是针对大规模数据的快速通用的集群计算引擎。决策树算法可以根据变量与因变量的具体关系,对变量特征进行最优分箱。通过运用决策树算法、递归方法,实现连续型数值特征的最优分箱,并且使用spark的rdd数据集表示、select、map等操作方法和二分查找方法,快速实现业务数据大宽表中连续特征的离散化,达到提高模型准确率、加快大规模数据计算速度的目的。

步骤300:将所述目标用户的用户金融信息输入所述目标金融服务风险预测模型,并将该目标金融服务风险预测模型的输出作为所述目标用户的金融服务风险预测结果。

可以理解的是,所述金融服务风险预测模型具体可以为通过机器学习的模型算法训练获得分类或回归模型用于信用风险评级或违约风险概率。可以但不限于:逻辑回归lr模型,广义线性回归glm模型,梯度提升决策树gbdt模型以及提升树xgboost模型等。

从上述描述可知,本申请实施例提供的计算机可读存储介质,通过针对不同的请求类型进行不同的模型预测,能够有效提高金融服务风险预测的应用广泛性,并有效提高针对各类预测请求进行风险预测的效率;通过应用spark系统对多个用户的历史金融信息进行数据分箱,能够有效提高训练用数据的分箱过程的可靠性、效率及自动化程度,通过应用经用spark系统进行数据分箱后的数据集训练得到金融服务风险预测模型,能够有效提高金融服务风险预测模型的应用可靠性及稳定性,减少了对特征信息的损失,使得进入模型的数据集保留了更多自身特征信息,从而有助于模型过拟合风险的降低和数据模型准确率和稳定性的提升;通过应用金融服务风险预测模型对目标用户进行金融服务风险预测,能够有效提高金融服务风险预测过程的准确性、效率及自动化程度,并有效降低金融机构的人力成本及时间成本,进而能够有效提高金融机构识别风险用户的准确性及效率,例如可以对金融机构的用户申请各类金融贷款的个人或企业的包括贷前、贷中和贷后的信用风险评级或违约风险概率进行快速且准确地预测,并能够有效提高金融机构运转的安全性及稳定性。

本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1