风控模型建模、企业风险评估方法、装置和存储介质与流程

文档序号:17467392发布日期:2019-04-20 05:36阅读:319来源:国知局
风控模型建模、企业风险评估方法、装置和存储介质与流程

本申请涉及互联网技术领域,特别是涉及一种风控模型建模、企业风险评估方法、装置、计算机设备和存储介质。



背景技术:

随着互联网技术的不断发展,根据业务需要,需要对有意向成为合作关系的企业进行企业风险判断,以免造成不必要的损失,由人工收集企业相关的信息转换为利用互联网技术收集数据,根据用户经验判断企业风险改为风控模型进行企业风险评估。

目前风控建模一般使用传统的机器学习方法,例如使用逻辑回归模型建立评分卡。这种有监督学习方法是基于历史数据的负样本学习而来的,且需要较为均衡的已知标签的正负样本。正负样本的需要相关的获取途径获得,如:根据与客户之间的交易过程中获取,但在进行交易前,风控系统会基于对客户的风险判断,决定是否与该客户交易,当该客户为高危客户时,会拒绝与该客户交易,因为被拒绝的客户了往往没有了标签,导致训练样本的分布与现实数据的分布有较大差异,因此导致建立的风控模型准确率和稳定性不高。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种提高风控模型准确率和稳定性的风控模型建模、企业风险评估方法、装置、计算机设备和存储介质。

一种风控模型建模方法,包括:

获取正样本数据集、负样本数据集和验证数据集;

将所述验证数据集、所述正样本数据集和所述负样本数据集输入待训练的机器学习模型进行训练,直至满足训练条件后,获得企业评分模型;

将所述验证数据集、所述正样本数据集和所述负样本数据集作为异常检验评分模型的样本特征,获得异常检验评分模型;

将所述企业评分模型与异常检验评分模型结合,获得风控模型。

在其中一个实施例中,将所述验证数据集、所述正样本数据集与所述负样本数据集输入待训练的机器学习模型进行训练,直至满足训练条件后,获得企业评分模型的步骤,包括:

将所述正样本数据集与所述负样本数据集输入待训练的机器学习模型;

所述待训练的机器学习模型基于所述正样本数据集与所述负样本数据集,根据相应的数据特征向量,获得训练后的机器学习模型;

将所述验证数据集输入所述训练后的机器学习模型进行评分,获得企业风险评分;

当所述企业风险评分在预设范围内,满足训练条件,获得企业评分模型。

在其中一个实施例中,将所述验证数据集、所述正样本数据集和所述负样本数据集作为异常检验评分模型的样本特征,获得异常检验评分模型的步骤,包括:

将所述验证数据集、所述正样本数据集和所述负样本数据集作为异常检验评分模型的样本特征进行特征提取,获得各样本特征的特征向量;

将各所述特征向量进行聚类,获得各群簇;

根据各群簇的特征空间分布,确定出各群簇中贡献最大的样本特征;

将贡献度最大的样本特征作为风控模型的评估特征,获得异常检验评分模型。

在其中一个实施例中,将所述企业评分模型与异常检验评分模型结合,获得风控模型的步骤,包括:

基于所述企业评分模型输出的第一企业风险评分与异常检验评分模型输出的第二企业风险评分求平均值的方式进行结合,获得风控模型。

在其中一个实施例中,获取正样本数据集和负样本数据集、验证数据集的步骤包括:

获取各企业的企业财务数据样本、发票信息样本、企业经营数据样本;

将所述企业财务数据样本、所述发票信息样本、所述企业经营数据样本基于数据标签与正负样本清单进行匹配,获得正样本数据集和负样本数据集;

将未匹配成功的所述财务数据样本、所述发票信息样本、所述企业经营数据样本作为验证数据集。

一种企业风险评估方法,所述方法包括:

获取待评分企业的企业财务数据、发票信息、企业经营数据;

将所述企业财务数据、所述发票信息、所述企业经营数据输入所述的风控模型进行企业风险评估,获得企业风险评估结果。

一种风控模型建模装置,通过所述装置包括:

数据集获取模块,用于获取正样本数据集和负样本数据集、验证数据集;

企业评分模型训练模块,用于将所述验证数据集、所述正样本数据集和所述负样本数据集输入待训练的机器学习模型进行训练,直至满足训练条件后,获得企业评分模型;

异常检验评分模型建立模块,用于将所述验证数据集、所述正样本数据集和所述负样本数据集作为异常检验评分模型的样本特征,获得异常检验评分模型;

模型结合模块,用于将所述企业评分模型与异常检验评分模型结合,获得风控模型。

一种企业风险评估装置,所述装置包括:

数据获取模块,用于获取待评分企业的企业财务数据、发票信息、企业经营数据;

企业风险评分模块,用于将所述企业财务数据、所述发票信息、所述企业经营数据输入所述的风控模型进行企业风险评分,获得企业风险值。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述方法的步骤。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的方法的步骤。

上述风控模型建模方法、装置、计算机设备和存储介质,获取正样本数据集和负样本数据集、验证数据集,将验证数据集、正样本数据集和负样本数据集输入待训练的机器学习模型进行训练,直至满足训练条件后,获得企业评分模型,将验证数据集、正样本数据集和负样本数据集作为异常检验评分模型的样本特征,获得异常检验评分模型;将企业评分模型与异常检验评分模型结合,获得风控模型,企业评分模型结合异常检验评分模型进行企业风险评分降低结果误差,进一步提高了风控模型准确率和稳定性。

上述企业风险评估方法、装置、计算机设备和存储介质,通过获取待评分企业的企业财务数据、发票信息、企业经营数据;将企业财务数据、发票信息、企业经营数据输入的风控模型进行企业风险评估,获得企业风险评估结果,风控模型将企业财务数据、发票信息、企业经营数据通过企业评分模型与异常检验评分模型结合进行企业风险评分降低结果误差,提高了企业风险评估的准确率。

附图说明

图1为一个实施例中风控模型建模方法的应用场景图;

图2为一个实施例中风控模型建模方法的流程示意图;

图3为另一个实施例中企业风险评估方法的流程示意图;

图4为一个实施例中风控模型建模装置的结构框图;

图5为一个实施例中企业风险评估装置的结构框图;

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的风控模型建模方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。用户通过终端102对执行风控模型建模方法的服务器104进行设置,使得服务器104获取正样本数据集、负样本数据集和验证数据集;将验证数据集、正样本数据集和负样本数据集输入待训练的机器学习模型进行训练,直至满足训练条件后,获得企业评分模型;将验证数据集、正样本数据集和负样本数据集作为异常检验评分模型的样本特征,获得异常检验评分模型;将企业评分模型与异常检验评分模型结合,获得风控模型。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种风控模型建模方法,以该方法应用于图1中的服务器为例进行说明,包括步骤s220至步骤s280:

步骤s220,获取正样本数据集、负样本数据集和验证数据集。

其中,正样本数据集是指通过没有风险的企业或风险低于预设值的企业中的企业财务数据、发票信息、企业经营数据等生成的数据集,正样本数据中的数据有正样本标签;负样本数据集是指通过风险高于预设值的企业中的企业财务数据、发票信息、企业经营数据等生成的数据集,负样本数据集中的数据有负样本标签,验证数据集指的是没有风险的企业、风险高于预设值的企业或风险低于预设值的企业中的企业财务数据、发票信息、企业经营数据等生成的数据集,验证数据集中的数据没有正负样本标签,验证数据集中的数据可以包含没有正负样本标签的正样本数据集、负样本数据集中的数据。

步骤s240,将验证数据集、正样本数据集和负样本数据集输入待训练的机器学习模型进行训练,直至满足训练条件后,获得企业评分模型。

其中,将验证数据集、正样本数据集和负样本数据集输入待训练的机器学习模型进行训练,使得待训练的机器学习模型进行训练,待训练的机器学习模型获取各正样本数据集的特征向量和负样本数据集的特征向量,学习到正样本数据集的特征向量和负样本数据集的特征向量,并根据正样本数据集的特征向量和负样本数据集的特征向量输出正样本数据集、负样本数据集中的各数据对应的企业风险评分,获得训练后的机器学习模型;通过验证数据集对训练后的机器学习模型进行验证,输出验证数据集中的各数据对应的企业风险评分,企业风险评分满足训练条件后,获得企业评分模型,验证数据集中的各数据对应的企业风险评分在预设范围内时,满足训练条件,预设范围为用户根据各验证数据集中的各数据表示的企业的实际风险情况确定。

步骤s260,将验证数据集、正样本数据集和负样本数据集作为异常检验评分模型的样本特征,获得异常检验评分模型。

其中,将验证数据集、正样本数据集和负样本数据集中的数据作为各行业对应的样本特征,将各行业的样本特征进行聚类,获得各群簇,根据各群簇的特征空间分布,确定出各群簇中贡献最大的样本特征,将各群簇中的样本特征进行降维,获得特征空间分布;通过根据各群簇的特征空间分布,确定出各群簇中贡献最大的样本特征;将贡献度最大的样本特征作为风控模型的评估特征,获得异常检验评分模型。根据企业信息对不同行业的企业进行划分,针对各个不同的行业,取该行业中的样本特征做聚类,聚类是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法;聚类的方式可以是以下几种:k-means算法、k-medoids算法等等;各行业的样本特征很多,提供了丰富的信息,但是也在一定程度上增加了数据采集的工作量,更重要的是在很多情形下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,如果分别对每个指标进行分析,分析往往是孤立的,不能完全利用数据中的信息,因此盲目减少指标会损失很多有用的信息,从而产生错误的结论,降维方式可以有:奇异值分解(svd)、主成分分析(pca)、因子分析(fa)、独立成分分析(ica)等等,将异常检验评分模型作为风控模型的一部分,无需对样本数据进行标记,被拒绝的客户了往往没有了标签,也可以用来作为样本数据,解决了正负样本不平衡的问题。

步骤s280,将企业评分模型与异常检验评分模型结合,获得风控模型。

其中,风控模型可以将需要进行企业风险评估的企业特征分别输入企业评分模型与异常检验评分模型,获得企业评分模型输出的企业风险评分及异常检验评分模型输出的企业风险评分,将企业评分模型输出的企业风险评分及异常检验评分模型输出的企业风险评分求平均值,平均值为该风控模型输出的最终企业风险评分。

上述风控模型建模方法中,获取正样本数据集和负样本数据集、验证数据集,将验证数据集、正样本数据集和负样本数据集输入待训练的机器学习模型进行训练,直至满足训练条件后,获得企业评分模型,将验证数据集、正样本数据集和负样本数据集作为异常检验评分模型的样本特征,获得异常检验评分模型;将企业评分模型与异常检验评分模型结合,获得风控模型,结合异常检验评分模型进行企业风险评分降低结果误差,进一步提高了风控模型准确率和稳定性。

在一个实施例中,将验证数据集、正样本数据集与负样本数据集输入待训练的机器学习模型进行训练,直至满足训练条件后,获得企业评分模型的步骤,包括:将正样本数据集与负样本数据集输入待训练的机器学习模型;待训练的机器学习模型基于正样本数据集与负样本数据集,根据相应的数据特征向量,获得训练后的机器学习模型;将验证数据集输入训练后的机器学习模型进行评分,获得企业风险评分;当企业风险评分在预设范围内,满足训练条件,获得企业评分模型。

其中,待训练的机器学习模型将输入的正样本数据集与负样本数据集,将各正样本数据集与负样本数据集中的数据进行特征向量提取,根据相应的数据特征向量,学习得到相应的数据特征向量,获得训练后的机器学习模型,通过验证数据集对训练后的机器学习模型进行验证,训练后的机器学习模型基于验证数据集中的数据的特征向量,确定验证数据集中的数据的特征向量是与正样本数据集中的数据进行特征向量类似,还是与负样本数据集中的数据进行特征向量类似,输出验证数据集中的各数据对应的企业风险评分,企业风险评分满足训练条件后,获得企业评分模型,验证数据集中的各数据对应的企业风险评分在预设范围内时,满足训练条件,预设范围为用户根据各验证数据集中的各数据表示的企业的实际风险情况确定,通过验证数据集对训练后的机器学习模型进行验证,进一步提高了风控模型准确率。

在一个实施例中,将验证数据集、正样本数据集和负样本数据集作为异常检验评分模型的样本特征,获得异常检验评分模型的步骤,包括:将验证数据集、正样本数据集和负样本数据集作为异常检验评分模型的样本特征进行特征提取,获得各样本特征的特征向量;将各特征向量进行聚类,获得各群簇;根据各群簇的特征空间分布,确定出各群簇中贡献最大的样本特征;将贡献度最大的样本特征作为风控模型的评估特征,获得异常检验评分模型。

其中,建立异常检验评分模型后还包括:利用行业中的所有特征数m与企业异常特征中大于平均水平的特征数p对企业风险评分进行修正,获得异常检验评分模型;具体地:通过行业中的所有特征数m,所有特征数m指的是输入异常检验评分模型的所有企业特征数量;对企业异常特征进行分析,确定各企业异常特征中大于平均水平的特征数p,企业异常特征指的是通过异常检验评分模型输出的企业异常特征;根据行业中的所有特征数m和大于平均水平的特征数p,确定企业的特征数占比,企业的特征数占比指的是企业异常特征p在所有特征数m中的占比;根据企业的特征数占比与中间占比的差值,确定企业的偏离程度,中间占比指的是整体水平在行业中居中的占比,中间占比为0.5;将企业的偏离程度与企业风险评分相加,获得最终的企业风险评分;如:最终的企业风险概率为:

m:行业中特定企业的所有特征数。p:企业异常特征中大于平均水平的特征数。企业的特征数占比,中间占比为0.5。企业的偏离程度,score:企业风险评分,λ:调节score与企业的偏离程度的超参数,用户可根据实际情况调节λ企业的偏离程度。通过基于企业异常特征对所述初步企业风险概率进行修正,提高了企业风险评估结果的准确性。

异常检验模型会将大于平均水平的特征数p或小于平均水平的特征数p的特征信息都标记为异常,为提高企业的偏离程度精准度,当企业异常特征都小于平均水平的特征时,通过中间占比减去企业的特征数占比,确定企业的初步偏离程度;当初步偏离程度的值大于0时,将初步偏离程度确定为企业的偏离程度,当初步偏离程度的值小于0时,企业的偏离程度为0,如:

异常检验模型会将大于平均水平的特征数p或小于平均水平的特征数p的特征信息都标记为异常,为提高企业的偏离程度精准度,当企业异常特征都小于平均水平的特征时,通过中间占比减去企业的特征数占比,确定企业的初步偏离程度;当初步偏离程度的值大于0时,将初步偏离程度确定为企业的偏离程度,当初步偏离程度的值小于0时,企业的偏离程度为0,如:

在一个实施例中,将企业评分模型与异常检验评分模型结合,获得风控模型的步骤,包括:基于企业评分模型输出的第一企业风险评分与异常检验评分模型输出的第二企业风险评分求平均值的方式进行结合,获得风控模型。

其中,风控模型可以将需要进行企业风险评估的企业特征分别输入企业评分模型与异常检验评分模型,获得企业评分模型输出的企业风险评分(第一企业风险评分)及异常检验评分模型输出的企业风险评分(第二企业风险评分),将企业评分模型输出的企业风险评分及异常检验评分模型输出的企业风险评分求平均值,平均值为该风控模型输出的最终企业风险评分。

在一个实施例中,获取正样本数据集和负样本数据集、验证数据集的步骤包括:获取各企业的企业财务数据样本、发票信息样本、企业经营数据样本;将企业财务数据样本、发票信息样本、企业经营数据样本基于数据标签与正负样本清单进行匹配,获得正样本数据集和负样本数据集;将未匹配成功的财务数据样本、发票信息样本、企业经营数据样本作为验证数据集。

其中,正样本清单指的是将属于正样本数据的进行收集并制定相应的标签,负样本清单指的是将属于负样本数据的进行收集并制定相应的标签,获取各企业的企业财务数据样本、发票信息样本、企业经营数据样本需要将各样本数据进行正负样本划分,可以基于数据标签可以通过正负样本清单进行匹配,获得正样本数据集和负样本数据集,如在正负样本清单中没有数据标签的数据属于不确定是正样本或负样本的,因此,可以作为验证数据集中的数据,将没有标签数据也可以用在风控模型的建立中,解决了客户被拒绝而损失负样本的问题。

在一个实施例中,如图3所示,提供了一种企业风险评估方法,所述方法包括步骤s420至步骤s440:

步骤s420,获取待评分企业的企业财务数据、发票信息、企业经营数据。

其中,待评分企业的企业财务数据、发票信息、企业经营数据可以向数据库获取,也可以是用户通过终端输入,企业财务数据为再生产过程中资金运动所体现的企业与各方面的经济关系的数据;发票指的是一切单位和个人在购销商品、提供或接受服务以及从事其他经营活动中,所开具和收取的业务凭证,发票信息指的是发票上的所有信息,如:时间信息、发票代码信息、关联企业信息、税目信息等等;企业经营数据指的是该企业总结和评价企业财务状况与经营成果的分析指标,包括偿债能力指标、运营能力指标、盈利能力指标和发展能力指标。

步骤s440,将企业财务数据、发票信息、企业经营数据输入风控模型进行企业风险评估,获得企业风险评估结果。

其中,将企业财务数据、发票信息、企业经营数据输入风控模型,风控模型的企业评分模型根据企业财务数据、发票信息、企业经营数据进行分析,获得第一企业风险评分;异常检验评分模型根据企业财务数据、发票信息、企业经营数据进行分析,输出企业风险评分和企业异常特征,获取该企业所属行业中的所有特征数;对企业异常特征进行分析,确定各企业异常特征中大于平均水平的特征数;根据行业中的所有特征数和大于平均水平的特征数,确定企业的特征数占比;根据企业的特征数占比与中间占比的差值,确定企业的偏离程度;将企业的偏离程度与初步企业风险概率相加,获得第二企业风险评分;获得将第一企业风险评分与第二企业风险评分的平均值,将该平均值输出为企业风险评估结果。

上述企业风险评估方法,通过获取待评分企业的企业财务数据、发票信息、企业经营数据;将企业财务数据、发票信息、企业经营数据输入的风控模型进行企业风险评估,获得企业风险评估结果,风控模型将企业财务数据、发票信息、企业经营数据通过企业评分模型与异常检验评分模型结合进行企业风险评分降低结果误差,提高了企业风险评估的准确率。

应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图4所示,提供了一种风控模型建模装置,包括:数据集获取模块310、企业评分模型训练模块320、异常检验评分模型建立模块330和模型结合模块340,其中:

数据集获取模块310,用于获取正样本数据集和负样本数据集、验证数据集;

企业评分模型训练模块320,用于将验证数据集、正样本数据集和负样本数据集输入待训练的机器学习模型进行训练,直至满足训练条件后,获得企业评分模型;

异常检验评分模型建立模块330,用于将验证数据集、正样本数据集和负样本数据集作为异常检验评分模型的样本特征,获得异常检验评分模型;

模型结合模块340,用于将企业评分模型与异常检验评分模型结合,获得风控模型。

在一个实施例中,企业评分模型训练模块320包括:数据输入单元,用于将正样本数据集与负样本数据集输入待训练的机器学习模型;企业评分模型训练单元,用于待训练的机器学习模型基于正样本数据集与所述负样本数据集,根据相应的数据特征向量,获得训练后的机器学习模型;验证单元,用于将验证数据集输入训练后的机器学习模型进行评分,获得企业风险评分;判断单元,用于当企业风险评分在预设范围内,满足训练条件,获得企业评分模型。

在一个实施例中,异常检验评分模型建立模块330包括:特征向量提取单元,用于将验证数据集、正样本数据集和负样本数据集作为异常检验评分模型的样本特征进行特征提取,获得各样本特征的特征向量;聚类单元,用于将各特征向量进行聚类,获得各群簇;样本特征确定单元,用于根据各群簇的特征空间分布,确定出各群簇中贡献最大的样本特征;评估特征确定单元,用于将贡献度最大的样本特征作为风控模型的评估特征,获得异常检验评分模型。

在一个实施例中,模型结合模块340包括用于:基于企业评分模型输出的第一企业风险评分与异常检验评分模型输出的第二企业风险评分求平均值的方式进行结合,获得风控模型。

在一个实施例中,数据集获取模块310包括用于:获取各企业的企业财务数据样本、发票信息样本、企业经营数据样本;将企业财务数据样本、发票信息样本、企业经营数据样本基于数据标签与正负样本清单进行匹配,获得正样本数据集和负样本数据集;将未匹配成功的财务数据样本、发票信息样本、企业经营数据样本作为验证数据集。

在一个实施例中,如图5所示,提供了一种企业风险评估装置,包括:

数据获取模块510,用于获取待评分企业的企业财务数据、发票信息、企业经营数据;

企业风险评分模块520,用于将企业财务数据、发票信息、企业经营数据输入的风控模型进行企业风险评分,获得企业风险值。

关于风控模型建模装置的具体限定可以参见上文中对于风控模型建模方法的限定,关于企业风险评估装置的具体限定可以参见上文中对于企业风险评估方法的限定,在此不再赘述。上述风控模型建模装置、企业风险评估装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本特征等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种风控模型建模、企业风险评估方法。

本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

获取正样本数据集、负样本数据集和验证数据集;将验证数据集、正样本数据集和负样本数据集输入待训练的机器学习模型进行训练,直至满足训练条件后,获得企业评分模型;将验证数据集、正样本数据集和负样本数据集作为异常检验评分模型的样本特征,获得异常检验评分模型;将企业评分模型与异常检验评分模型结合,获得风控模型。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:将正样本数据集与负样本数据集输入待训练的机器学习模型;待训练的机器学习模型基于正样本数据集与负样本数据集,根据相应的数据特征向量,获得训练后的机器学习模型;将验证数据集输入训练后的机器学习模型进行评分,获得企业风险评分;当企业风险评分在预设范围内,满足训练条件,获得企业评分模型。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:将验证数据集、正样本数据集和负样本数据集作为异常检验评分模型的样本特征进行特征提取,获得各样本特征的特征向量;将各特征向量进行聚类,获得各群簇;根据各群簇的特征空间分布,确定出各群簇中贡献最大的样本特征;将贡献度最大的样本特征作为风控模型的评估特征,获得异常检验评分模型。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:基于企业评分模型输出的第一企业风险评分与异常检验评分模型输出的第二企业风险评分求平均值的方式进行结合,获得风控模型。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取各企业的企业财务数据样本、发票信息样本、企业经营数据样本;将企业财务数据样本、发票信息样本、企业经营数据样本基于数据标签与正负样本清单进行匹配,获得正样本数据集和负样本数据集;将未匹配成功的财务数据样本、发票信息样本、企业经营数据样本作为验证数据集。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取正样本数据集、负样本数据集和验证数据集;将验证数据集、正样本数据集和负样本数据集输入待训练的机器学习模型进行训练,直至满足训练条件后,获得企业评分模型;将验证数据集、正样本数据集和负样本数据集作为异常检验评分模型的样本特征,获得异常检验评分模型;将企业评分模型与异常检验评分模型结合,获得风控模型。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将正样本数据集与负样本数据集输入待训练的机器学习模型;待训练的机器学习模型基于正样本数据集与负样本数据集,根据相应的数据特征向量,获得训练后的机器学习模型;将验证数据集输入训练后的机器学习模型进行评分,获得企业风险评分;当企业风险评分在预设范围内,满足训练条件,获得企业评分模型。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将验证数据集、正样本数据集和负样本数据集作为异常检验评分模型的样本特征进行特征提取,获得各样本特征的特征向量;将各特征向量进行聚类,获得各群簇;根据各群簇的特征空间分布,确定出各群簇中贡献最大的样本特征;将贡献度最大的样本特征作为风控模型的评估特征,获得异常检验评分模型。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:基于企业评分模型输出的第一企业风险评分与异常检验评分模型输出的第二企业风险评分求平均值的方式进行结合,获得风控模型。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取各企业的企业财务数据样本、发票信息样本、企业经营数据样本;将企业财务数据样本、发票信息样本、企业经营数据样本基于数据标签与正负样本清单进行匹配,获得正样本数据集和负样本数据集;将未匹配成功的财务数据样本、发票信息样本、企业经营数据样本作为验证数据集。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待评分企业的企业财务数据、发票信息、企业经营数据;将企业财务数据、发票信息、企业经营数据输入所述的风控模型进行企业风险评估,获得企业风险评估结果。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待评分企业的企业财务数据、发票信息、企业经营数据;将企业财务数据、发票信息、企业经营数据输入所述的风控模型进行企业风险评估,获得企业风险评估结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1