模型训练、样本平衡方法及装置以及个人信用评分系统与流程

文档序号:12786989阅读:335来源:国知局
模型训练、样本平衡方法及装置以及个人信用评分系统与流程

本申请涉及互联网技术领域,尤其涉及一种针对不平衡样本集的模型训练方法及装置、一种针对不平衡样本集的样本平衡方法及装置、以及一种个人信用评分系统。



背景技术:

随着大数据时代的到来,可以根据历史数据以及历史数据对应的结果进行分析,从而预测未来可能发生的事。比如,根据历史数据以及对应的结果生成至少包含正负两种样本的样本集,根据样本集训练特定的模型。当模型接收到现有的数据时,就可以预测现有数据对应的结果。具体比如,根据癌症患者与健康人的历史数据(包括:病历、饮食、作息等等)生成包含正样本(癌症患者)和负样本(健康人)的样本集,并根据该样本集训练癌症预测模型,当癌症预测模型接收到疑似癌症患者的历史数据时,就可以预测出患癌症的可能性,从而及早治疗。

在训练模型时如果基于平衡样本集进行训练,通常都会得到较好的性能,平衡样本集是指样本中包含的种类的数量相差不多,比如,新生儿样本的男女比例会接近1:1。然而,随着信息化的发展,预测小概率事件成为了各行各业的焦点,比如预测患癌症的概率,预测用户信用卡逾期的概率,预测金融市场突变的概率等。但这些小概率事件的样本都存在一个共性,就是样本集的严重失衡,癌症患者是少数,信用卡逾期的人是少数,金融市场的突变也是少有的,在根据不平衡样本集进行模型训练时,往往会存在偏性,从而影响模型的性能。

现有技术为了实现样本平衡,采用的方式多为过抽样处理,即随机复制少数类样本,从而达到少数类样本与多数类样本的数量达到平衡的目的,但是随 机复制的结果就是会出现完全相同的至少两个样本,但在实际应用中,一般不会出现完全相同的两个样本,所以仅仅是简单复制的处理方式,显然会导致样本的真实性较低。基于真实性较低的样本进行模型训练也势必会影响模型的性能。



技术实现要素:

本申请实施例提供一种针对不平衡样本集的模型训练方法,对不平衡样本集进行样本平衡后再训练模型,从而提高模型的性能。

本申请实施例提供一种针对不平衡样本集的模型训练装置,对不平衡样本集进行样本平衡后再训练模型,从而提高模型的性能。

本申请实施例提供一种针对不平衡样本集的样本平衡方法,用于在对不平衡样本集进行过抽样处理时,提高处理后的样本集的真实性。

本申请实施例提供一种针对不平衡样本集的样本平衡装置,用于在对不平衡样本集进行过抽样处理时,提高处理后的样本集的真实性。

本申请实施例提供一种个人信用评分系统,用于提高个人信用评分的真实性。

本申请实施例采用下述技术方案:

一种针对不平衡样本集的模型训练方法,包括:

获取不平衡样本集,所述不平衡样本集中包含负样本和正样本,且负样本与正样本的样本数量比大于不平衡阈值,所述不平衡阈值大于1;

根据所述不平衡样本集中的正样本,以及与所述正样本相邻的样本,建立合成正样本,所述与所述正样本相邻的样本包含负样本和/或正样本;

当合成正样本与正样本的数量之和与负样本数量的比值在平衡阈值区间内时,将合成正样本修改为正样本,生成平衡样本集;

根据所述平衡样本集进行模型训练。

优选地,根据所述不平衡样本集中的正样本,以及与所述正样本相邻的 样本,建立合成正样本,包括:从所述不平衡样本集中选取一个正样本;以所述一个正样本为基准,从样本空间中选取与所述一个正样本相邻的样本集合,所述样本集合中包含负样本和/或正样本;根据所述一个正样本与所述样本集合中的样本在样本空间中分别对应的特征和特征值,在所述一个正样本与所述样本集合中的样本之间建立合成正样本。

优选地,当合成正样本与正样本的数量之和与负样本数量的比值在平衡阈值区间内时,将合成正样本修改为正样本,生成平衡样本集,包括:判断合成正样本与正样本的数量之和与负样本数量的比值是否在平衡阈值区间内;当是时,将合成正样本修改为正样本,生成平衡样本集。

优选地,所述方法还包括:当否,且小于所述平衡阈值区间的最小值时,从所述不平衡样本集中再选取一个正样本,重复执行所述以所述一个正样本为基准,从样本空间中选取与所述一个正样本相邻的样本集合。

优选地,以所述一个正样本为基准,从样本空间中选取与所述一个正样本相邻的样本集合,包括:根据所述样本数量比,以及所述一个正样本在样本空间中与至少一个正样本之间的距离,确定相邻距离阈值;根据所述相邻距离阈值以及所述样本数量比,以所述一个正样本为基准,从样本空间中选取与所述一个正样本相邻的样本集合。

优选地,根据所述一个正样本与所述样本集合中的样本在样本空间中分别对应的特征值,在所述一个正样本与所述样本集合中的样本之间建立合成正样本,包括:根据所述一个正样本与所述样本集合中的样本在样本空间中分别对应的特征值,在所述一个正样本与所述样本集合中的样本的中间位置建立合成正样本。

优选地,所述方法应用于针对不平衡的原始个人信用样本集,正样本为逾期样本,负样本为非逾期样本。一种针对不平衡样本集的模型训练装置,包括:样本集获取单元、样本建立单元、样本集生成单元以及模型训练单元,其中,

所述样本集获取单元,用于获取不平衡样本集,所述不平衡样本集中包含负样本和正样本,且负样本与正样本的样本数量比大于不平衡阈值,所述不平衡阈值大于1;

所述样本建立单元,用于根据所述不平衡样本集中的正样本,以及与所述正样本相邻的样本,建立合成正样本,所述与所述正样本相邻的样本包含负样本和/或正样本;

所述样本集生成单元,用于当合成正样本与正样本的数量之和与负样本数量的比值在平衡阈值区间内时,将合成正样本修改为正样本,生成平衡样本集;

所述模型训练单元,用于根据所述平衡样本集进行模型训练。

优选地,所述样本建立单元包括:正样本选取单元、样本集合选取单元以及合成正样本建立单元,其中,

所述正样本选取单元,用于从所述不平衡样本集中选取一个正样本;

所述样本集合选取单元,用于以所述一个正样本为基准,从样本空间中选取与所述一个正样本相邻的样本集合,所述样本集合中包含负样本和/或正样本;

所述合成正样本建立单元,用于根据所述一个正样本与所述样本集合中的样本在样本空间中分别对应的特征和特征值,在所述一个正样本与所述样本集合中的样本之间建立合成正样本。

优选地,所述样本集生成单元包括:判断单元、平衡样本集生成单元以及跳转单元,其中,

所述判断单元,用于判断合成正样本与正样本的数量之和与负样本数量的比值是否在平衡阈值区间内;

所述平衡样本集生成单元,用于当判断结果为否是时,将合成正样本修改为正样本,生成平衡样本集;

所述跳转单元,用于当判断结果为否,且小于所述平衡阈值区间的最小 值是时,跳转执行所述样本建立单元。

优选地,样本集合选取单元,具体用于:根据所述样本数量比,以及所述一个正样本在样本空间中与至少一个正样本之间的距离,确定相邻距离阈值;根据所述相邻距离阈值以及所述样本数量比,以所述一个正样本为基准,从样本空间中选取与所述一个正样本相邻的样本集合。

优选地,合成正样本建立单元,具体用于:根据所述一个正样本与所述样本集合中的样本在样本空间中分别对应的特征值,在所述一个正样本与所述样本集合中的样本的中间位置建立合成正样本。

一种针对不平衡样本集的样本平衡方法,其特征在于,所述不平衡样本集中包含负样本和正样本,且负样本与正样本的样本数量比大于不平衡阈值,所述不平衡阈值大于1,所述方法包括:

从所述不平衡样本集中选取一个正样本;

以所述一个正样本为基准,从样本空间中选取与所述一个正样本相邻的样本集合,所述样本集合中包含负样本和/或正样本;

根据所述一个正样本与所述样本集合中的样本在样本空间中分别对应的特征和特征值,在所述一个正样本与所述样本集合中的样本之间建立合成正样本;

判断合成正样本与正样本的数量之和与负样本数量的比值是否在平衡阈值区间内;

当是时,将合成正样本修改为正样本,生成平衡样本集。

一种针对不平衡样本集的样本平衡装置,包括:正样本选取单元、样本集合选取单元、合成正样本建立单元、判断单元以及平衡样本集生成单元,其中,

所述正样本选取单元,用于从所述不平衡样本集中选取一个正样本;

所述样本集合选取单元,用于以所述一个正样本为基准,从样本空间中选取与所述一个正样本相邻的样本集合,所述样本集合中包含负样本和/或正 样本;

所述合成正样本建立单元,用于根据所述一个正样本与所述样本集合中的样本在样本空间中分别对应的特征和特征值,在所述一个正样本与所述样本集合中的样本之间建立合成正样本;

所述判断单元,用于判断合成正样本与正样本的数量之和与负样本数量的比值是否在平衡阈值区间内;

所述平衡样本集生成单元,用于当判断结果为是时,将合成正样本修改为正样本,生成平衡样本集。

优选地,所述装置还包括跳转单元,具体用于:当判断结果为否,且小于所述平衡阈值区间的最小值是时,跳转执行所述正样本选取单元。

一种个人信用评分系统,包括:原始个人信用建立系统、样本平衡系统、信用模型训练系统、个人信用评分系统,其中,

所述原始个人信用建立系统,用于根据用户对应的特征和特征值,建立原始个人信用样本集;

所述样本平衡系统,用于对原始个人信用样本集进行样本平衡;

所述信用模型训练系统,用于根据平衡后的个人信用样本集训练信用模型;

所述个人信用评分系统,用于根据用户对应的特征和特征值,利用信用模型对用户的逾期情况进行预测,并根据预测结果进行个人信用评分。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:由于在不平衡本集中,少数类样本(正样本)是较少的,但是与正样本相邻不远的样本往往存在与该正样本相同或相似的特征,以该正样本为基准选取与该正样本相邻的样本集合,再从样本集合中选取样本,并根据特征和特征值与该正样本建立合成正样本,使得合成正样本也与正样本存在特征值上的相似性,相对于现有技术针对不平衡样本集进行简单复制某些正样本的过抽样处理方法而言,提高了平衡样本集的真实性。根据本申请生成的真实性较高的平衡样本集 进行模型训练后,模型的性能也会得到提升。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1为本申请实施例1提供的一种针对不平衡样本集的样本平衡方法的流程示意图;

图2为本申请实施例1提供的选取一个正样本示意图;

图3为本申请实施例1提供的根据邻居距离阈值选取相邻的样本集合的示意图;

图4为本申请实施例1提供的确定相邻距离阈值的示意图;

图5为本申请实施例1提供的确定相邻距离阈值的示意图;

图6为本申请实施例1提供的根据确定出的邻居距离阈值选取相邻的样本集合示意图;

图7为本申请实施例1提供的建立合成正样本的示意图;

图8为本申请实施例1提供的建立合成正样本并达到样本平衡的示意图;

图9为本申请实施例1提供的将合成正样本修改为正样本并生成平衡样本集的示意图;

图10为本申请实施例2提供的一种针对不平衡信用样本进行信用模型训练的方法的流程示意图;

图11为本申请实施例3提供的一种针对不平衡样本集的样本平衡装置的结构框图;

图12为本申请实施例4提供的一种针对不平衡样本集的模型训练方法的流程示意图;

图13为本申请实施例5提供的一种针对不平衡样本集的模型训练装置的结构框图;

图14为本申请实施例6提供的一种个人信用评分系统的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在进行本申请的技术方案的详细介绍之前,为了明确起见,这里先对几个术语作简要说明。在本申请实施例中将涉及不平衡样本集和平衡样本集,负样本和正样本,以及样本空间和特征值。样本集中包含正样本和负样本,每个样本表示一个对象。比如,当需要建立健康人群与癌症患者的样本集时,每个人就是一个样本,健康的人是负样本,癌症患者就是正样本,这里的负样本就是代表多数类样本,正样本代表少数类样本。由于癌症患者毕竟是少数,所以负样本与正样本的样本数量比一定大于1,可以设定一个不平衡阈值,比如1.2,当样本集中负样本与正样本的样本数量比大于1.2时,即可认为该样本集是不平衡样本。可以预设一个平衡样本阈值区间,该区间为有界区间,比如该区间为(0.9,1.1),即表示当样本集中负样本与正样本的样本数量比在(0.9,1.1)范围内时,可认为该样本集是平衡样本。每个样本都有自己的特征和特征值,比如一个胃癌患者正样本中,会有早期症状:呕吐、胃溃疡等,“早期症状”就是特征,“呕吐、胃溃疡等”就是特征值。每个样本会有多维度的特征和特征值,可以根据多维度的特征和特征值建立多维度的样本空间,根据每个维度的特征值将每个样本放置在样本空间的某个位置中,并可以根据指定的距离度量方法确定出每两个样本之间的距离。

以下结合附图,详细说明本申请各实施例提供的技术方案。

实施例1

如前所述,随着信息化的发展,预测小概率事件成为了各行各业的焦点,比如预测患癌症的概率,预测用户信用卡逾期的概率,预测金融市场突变的概率等。但这些小概率事件的样本集都是严重失衡的,比如(1000:1,即每1000个人里才有一个逾期不还信用卡的人),在根据不平衡样本集进行模型训练时,往往会存在偏性,从而影响模型的性能。现有技术为了解决这一问题,采用的方式多为过抽样处理,即随机复制少数类样本,从而达到少数类样本与多数类样本的数量达到平衡的目的,比如对于样本集中的少数类样本中的样本1而言,复制了两次,那么在样本空间中样本1的位置上就会有样本1、样本1’以及样本1”这3个的样本,但在实际应用中,一般不会出现完全相同的两个样本,就像每位癌症患者的患病原因、早期症状等都不尽相同,每个不还信用卡的人的历史行为以及个人本身也是不是完成相同的,所以如果仅仅是对若干个少数类样本进行简单地复制,显然会导致样本的真实性较低。在训练模型时由于出现多个相同的样本,也会导致这些样本的权重较高,从而造成过度拟合的问题,进而影响模型的训练效果。基于此缺陷,本发明人提出了一种针对不平衡样本集的样本平衡方法,用于在对不平衡样本集进行过抽样处理时,提高处理后的样本集的真实性。该方法是针对不平衡样本集进行的一种过抽样处理方法,样本集中包含负样本和正样本,且负样本与正样本的样本数量比大于不平衡阈值,该不平衡阈值可以是预先设定的(比如1.2或1.5等),由于建立样本集的步骤不是本方案重点,所以不过多介绍。该方法的流程示意图如图1所示,包括下述步骤:

步骤11:从不平衡样本集中选取一个正样本。

由于过抽样处理是针对少数类样本的,所以可以从不平衡样本集中选取一个正样本,选取的方式可以是随机选取,也可以是按照样本空间中的位置进行 选取,比如,对于二维样本平面,可以根据特征值由小到大的顺序进行选取,对于三维样本空间,可以根据特征值在样本空间中由中心向四周进行选取,等。需要说明的是,本实施例中所说的样本空间包括二维样本平面以及多位样本空间。

需要说明的是,在对术语作简要说明时,已经介绍这里的负样本就是代表多数类样本,正样本代表少数类样本。在实际应用中,可以自行定义正负样本,比如也可以把正样本定义为多数类样本。这两个定义是预先定好的,且在一个流程中,一旦定好是不可更改的。如果在实际应用中将负样本定义为少数类样本,那么该步骤就是选取一个负样本。本申请将正样本定义为少数类样本,此后不再赘述。

以二维样本平面为例,如图2所示,“○”为负样本,“□”为正样本,可以从5个正样本中随机选取一个,比如选取了正样本1。

步骤12:以这个正样本为基准,从样本空间中选取与这个正样本相邻的样本集合。

因为在样本空间中,样本之间的相对位置是根据样本的特征值确定出来的,可以认为距离越近的两个样本,它们之间的关系越紧密,它们的特征值的差别越小,所以,可以根据距离来选取与这个正样本相邻的样本集合。

该步骤中,可以预设一个相邻距离阈值,这个相邻距离阈值可以是预先设定的,以步骤11中选取到的这个正样本为基准,与该正样本的距离小于相邻距离阈值的样本都可以被选取到样本集合中,样本集合中可以包含负样本和/或正样本。比如,如图3所示,对于正样本1而言,预先设定的相邻距离阈值为r,则可以从以这个样本的位置为圆心,以r为半径的范围内,从二维样本平面中选取与这个正样本相邻的样本集合,该样本集合中包括3个负样本(标识为“√”的3个“○”)。

需要说明的是,本申请中的距离,是按照指定的距离度量方法确定的,比如,欧氏距离(Euclidean Distance),曼哈顿距离(Manhattan Distance),标准化欧 氏距离(Standardized Euclidean distance),等等。

在实际应用中,预先设定相邻距离阈值不一定适用于全部的正样本,比如,某个正样本与其它样本的距离都很远,那么再根据预先设定相邻距离阈值区选取与之相邻的样本集合就有可能选不出来,所以,在一定实施方式中,为了能够根据正样本本身的位置自适应的调节相邻距离阈值,以这个正样本为基准,利用相邻距离阈值从样本空间中选取与这个正样本相邻的样本集合,可以包括:

根据样本数量比,以及这个正样本在样本空间中与至少一个其它正样本之间的距离,确定相邻距离阈值;根据相邻距离阈值以及样本数量比,以这个正样本为基准,从样本空间中选取与这个正样本相邻的样本集合。

具体地,可以根据下述公式确定相邻距离阈值:

其中,K为选取的一个正样本与至少一个其它正样本的总数量,

N=样本数量比-1,d为第i个正样本到第k个正样本之间的距离。

当确定出相邻距离阈值后,可以根据相邻距离阈值以及N,从不平衡样本集中选取与这个正样本相邻的样本集合。

具体地,比如,如图4所示,K可以取3,由于已经选取一个正样本1,所以再选取两个正样本,选取方式可以是随机选取,也可以是选取相邻的,比如,选取了正样本2和正样本3。在图4中,负样本有15个,正样本有5个,所以N=15:5-1=2,可以认为当根据每个正样本复制出2个正样本时,可以达到样本平衡。可以从K个正样本中随机选取2个,作为i=1和i=2,将K个正样本作为k=1、k=2以及k=3。

如图5所示,d(i=1,k=1)=L1;d(1,2)=L3;d(1,3)=0;

d(2,1)=0;d(2,2)=L2;d(2,3)=L1;

所以,D=(L1+L1+L2+L3)/(2×3)

以图5为例,L1=872(单位),L2=L1=738(单位),L3=1144(单位),“(单位)”表示在二维样本平面中的距离单位。则D=605(单位)。

如图6所示,在以正样本1为圆心,D为半径的圆的范围内,从不平衡样本集中选取(随机或按照距离大小)与这个正样本相邻的N=2个样本(标识为“√”的2个“○”),组成样本集合。

需要说明的是,在选取与这个正样本相邻的样本集合时,也可以选取正样本,因为正样本距离很近的周围的样本中(不管是正样本还是负样本)均会有与正样本相同或相似的一些特征。

步骤13:根据这个正样本与样本集合中的样本在样本空间中分别对应的特征和特征值,在这个正样本与样本集合中的样本之间建立合成正样本。

由于在不平衡样本集中,正样本的数量较少,在一些场景中(癌症患者、信用卡逾期用户)正样本的数量更是极少的,所以两个正样本之间的距离一般情况下会大于两个负样本之间的距离,但是如前所示,与正样本距离很近的周围的样本中均会有与正样本相同或相似的一些特征。类似的,比如罪犯周围的人,可能或多或少的有着与罪犯相似的特征,比如,学历,生活条件,家庭,不良嗜好等。虽然罪犯周围的人不一定会犯罪,但是会有潜在的可能性,所以在本步骤中,可以根据选取的一个样本,与步骤12中选取的样本集合中的样本分别对应的特征和特征值,在这个正样本与样本集合中的样本之间建立合成正样本。需要说明的是,在建立合成样本时,特征和特征值要一一对应,比如,要根据选取的这个正样本的年收入:5万,与样本集合中的样本的年收入:6万进行对应。

在一种实施方式中,可以在这个正样本与样本集合中的样本的中间位置建立合成正样本,比如针对上述的“年收入”的例子,建立合成正样本的年收入为5.5万。如图7所示,为建立的两个合成正样本“△”。

需要说明的是,在实际应用中,往往N不是整数,在这种情况下,有两种处理方式:

第一种,以多个正样本为,进行局部凑整,比如,N为0.7,那么可以根据10个正样本建立7个合成正样本。

第二种,以四舍五入为基准,当N为3.3时,根据一个正样本建立3个合成正样本,直到样本集达到平衡为止,或当N为1.56时,根据一个正样本建立2个合成正样本,直到样本集达到平衡为止。

步骤14:判断合成正样本与正样本的数量之和与负样本数量的比值是否在平衡阈值区间内。

由于合成正样本就可以当作是正样本,所以可以将合成正样本于正样本一起累加起来,确定出数量之和,判断数量之和与负样本数量的比值是否在平衡阈值区间内,当不在,且小于该平衡阈值区间的最小值时,从不平衡样本集中再选取一个正样本,重复执行步骤12到步骤14,也就是继续建立合成正样本,需要说明的是,从不平衡样本集中再选取一个正样本,实际上可以与步骤11中选取的那个正样本相同,也可以不同,但在实际操作中,就是通过执行步骤11再选取一个正样本,所以当不在,且小于该平衡阈值区间的最小值时,也可以直接执行步骤11,并再重复执行步骤12到步骤14。

当比值在该平衡阈值区间内时,则可以认为此时的正样本(包括合成正样本)与负样本之间达到平衡,如图8所示,根据每个正样本建立2个合成正样本,此时,正样本(包括合成正样本)与负样本的数量都是15个,比值就是1:1,达到了完全平衡,就可以将合成正样本修改为正样本,生成平衡样本集,也就是如图9所示的结果。

在实际应用中,往往是一次选取出多个正样本,根据每个正样本,并行建立合成样本,所以,就有可能出现,合成正样本与正样本的数量又多余负样本,此时,这个样本集就又是不平衡的了。比如,就以图2至图9的例子来说,最开始负样本有15个,正样本只有5个,再根据正样本建立合成正样本时,如果合成正样本与正样本的数量变为了20个,那么又不平衡了,所以,在一种实施方式中,如果合成正样本与正样本的数量之和与负样本数量的比值不在平 衡阈值区间内,且大于该平衡阈值区间的最大值时,删除指定数量的合成正样本,并判断合成正样本与正样本的数量之和与负样本数量的比值是否在平衡阈值区间内。

所以,在实际应用对不平衡样本集进行平衡样本时,根据预先设定的平衡阈值区间对建立合成正样本还是删除合成正样本进行控制,最终目的是为了达到样本平衡。比如,不平衡阈值设置为2,即获取到的样本集中负样本是正样本的至少两倍时,开始对其进行样本平衡的操作,平衡阈值区间为[0.95,1.05],当0.95≤负样本数/(合成正样本数+正样本数)≤1.05时,生成平衡样本集。

得到平衡样本集后,最终的目的可以是为了训练模型,使训练出的模型性能更好,所以,在一种实施方式中,该方法还可以包括:根据平衡样本集进行模型训练。由于训练的过程不是本申请的重点,所以不再赘述。

采用实施例1提供的该方法,由于在不平衡本集中,少数类样本(正样本)是较少的,但是与正样本相邻不远的样本往往存在与该正样本相同或相似的特征,以该正样本为基准选取与该正样本相邻的样本集合,再从样本集合中选取样本,并根据特征和特征值与该正样本建立合成正样本,使得合成正样本也与正样本存在特征值上的相似性,相对于现有技术针对不平衡样本集进行简单复制某些正样本的过抽样处理方法而言,提高了平衡样本集的真实性。根据本申请生成的真实性较高的平衡样本集进行模型训练后,模型的性能也会得到提升。

在实际应用中,还有一种现有技术,也是对不平衡样本集进行合成少数类样本的过抽样方法,即SMOTE(Synthetic Minority Over-Sampling Technique)算法,该算法是在不平衡样本集中,先随机选取一个正样本,再选取与该正样本最近的另一个正样本,在这两正样本之间随机选取一点建立合成正样本,该算法虽然与本申请类似,但是如前所述,对于不平衡样本集而言,正样本之间的距离比较远(且失衡越严重,正样本之间的距离往往越大),所以正样本之间大多没有什么相似特征,所以在两正样本之间建立的正样本从特征值上看与哪个正样本都有较大差异,也是比较盲目地进行过抽样处理方法。举实例来说, 住在中国北京的一位市民与住在澳大利亚堪培拉的一位市民,虽然都存在逾期不还信用卡的行为(即逾期样本),但是无论从消费习惯、货币购买力,还是从人种、社会背景上都存在较大差异,所以不能轻易的认为在这两位市民之间的帕劳共和国某个城市的市民就为逾期样本。然而本申请中,会找住在中国上海的一位市民(逾期样本或非逾期样本),在这两位市民之间如山东省济南市建立合成逾期样本,由于无论从消费习惯、货币购买力,还是从人种、社会背景上都不存较大差异,所以建立出的合成逾期样本,才更加真实可信。

实施例2

随着个人征信体系的发展,可以为每个人建立“信用档案”,信用档案中包括用户的历史信用信息,比如,多维度的与信用有关的数据(年龄、教育、个人档案、工作、工资收入等)。通过对历史信用信息的分析,就可以预测出未来这个人是否可信。然而在建立样本集时,由于不还信用卡的人毕竟是少数,所以逾期样本相对于非逾期样本是非常少的,这就形成了不平衡样本集,如前所述,现有技术只是简单的复制某些逾期样本来进行过抽样处理,但是每个人(作为一个样本)的特征值都不尽相同(没有完全相同的两个人),所以简单复制就会导致建立的合成逾期样本的真实性较差。在利用SMOTE算法进行过抽样处理时,由于两逾期样本一般相距较远,在它们之间建立的逾期样本也不具有较高的真实性,具体原因可以参考实施例1中描述。所以针对现有技术对不平衡的个人信用样本集进行过抽样处理而达到样本平衡的方法的缺陷,且基于与实施例1相同的发明构思,实施例2提供了一种针对不平衡信用样本进行信用模型训练的方法,用于提高信用模型的性能。该方法的流程示意图如图10所示,包括下述步骤:

步骤21:根据用户对应的特征和特征值,建立原始个人信用样本集。

该步骤中,可以先获取用户对应的所有特征和特征值,再进行预处理的操作,在这个过程中,不同的数据源首先经过数据清洗,消除错误数据和无关数 据,然后经过数据转换而成为系统可以识别和支持的格式,最后通过每一个用户的数据唯一标识而将同一用户在不同数据来源中的数据融合为一条数据。在完成预处理操作后,就可以根据用户对应的特征和特征值建立原始个人信用样本集。该样本集中包含逾期样本(到期不还信用卡的用户)和非逾期样本(到期还清信用卡的用户),由于逾期样本一定是少数的,所以该原始个人信用样本集一定是不平衡的样本集。

步骤22:从原始个人信用样本集中选取一个逾期样本。

步骤23:根据样本数量比,以及该逾期样本在样本空间中与至少一个其它逾期样本之间的距离,确定相邻距离阈值。

步骤24:根据确定出的相邻距离阈值以及样本数量比,以该逾期样本为基准,从样本空间中选取与该逾期样本相邻的样本集合。

样本集合中可以包含逾期样本,也可以包含非逾期样本。

步骤25:根据该逾期样本与样本集合中的样本在样本空间中分别对应的特征和特征值,在该逾期样本与样本集合中的样本的中间位置建立合成逾期样本。

步骤26:判断合成逾期样本与逾期样本的数量之和与非逾期样本数量的比值是否在平衡阈值区间内。

当不在,且小于该平衡阈值区间的最小值时,从原始个人信用样本集中再选取一个逾期样本,重复执行步骤22到步骤26,也就是继续建立合成逾期样本。

当在该平衡阈值区间内时,则可以认为此时的逾期样本(包括合成逾期样本)非逾期负样本之间达到平衡。所以可以将合成逾期样本修改为逾期样本,并生成平衡的个人信用样本集。

步骤27:根据平衡的个人信用样本集训练信用模型。

在实际应用中,可以获取用户一年内的信用数据以及对应的信用记录,取前三季度的信用数据以及对应的信用记录用于训练信用模型,最后一个季度用于验证信用模型的性能。如果性能未达到预期要求,可以适当调整比如选取相 邻样本集合过程中的参数(比如对K、N和/或D进行系数加成)等。

采用实施例2提供的该方法,由于在不平衡的个人信用样本集中,逾期样本是很少的,但是与逾期样本相邻不远的样本往往存在与该逾期样本相同或相似的特征,以该逾期样本为基准选取与该逾期样本相邻的样本集合,再从样本集合中选取逾期或非逾期样本,并根据特征和特征值与该样本集合中的这个样本建立合成逾期样本,使得合成逾期样本也与逾期样本存在特征值上的相似性,相对于现有技术针对不平衡的个人信用样本集进行简单复制某些逾期样本的过抽样处理方法而言,提高了个人信用样本集的真实性,在根据真实性较高的平衡的个人信用样本集对信用模型进行训练后,信用模型的性能也会得到提升。

实施例3

基于相同的发明构思,实施例3提供了一种针对不平衡样本集的样本平衡装置,用于在对不平衡样本集进行过抽样处理时,提高样本的真实性。图11为该装置的结构框图,该装置包括:

正样本选取单元31、样本集合选取单元32、合成正样本建立单元33、判断单元34以及平衡样本集生成单元35,其中,

正样本选取单元31,可以用于从不平衡样本集中选取一个正样本;

样本集合选取单元32,可以用于以一个正样本为基准,从样本空间中选取与一个正样本相邻的样本集合,样本集合中包含负样本和/或正样本;

合成正样本建立单元33,可以用于根据一个正样本与样本集合中的样本在样本空间中分别对应的特征和特征值,在一个正样本与样本集合中的样本之间建立合成正样本;

判断单元34,可以用于判断合成正样本与正样本的数量之和与负样本数量的比值是否在平衡阈值区间内;

平衡样本集生成单元35,可以用于当判断结果为是时,将合成正样本修改为正样本,生成平衡样本集。

在一种实施方式中,该装置还包括跳转单元,可以用于:

当判断结果为否,且小于平衡阈值区间的最小值是时,跳转执行正样本选取单元。

采用实施例3提供的该装置,由于在不平衡本集中,少数类样本(正样本)是较少的,但是与正样本相邻不远的样本往往存在与该正样本相同或相似的特征,以该正样本为基准选取与该正样本相邻的样本集合,再从样本集合中选取样本,并根据特征和特征值与该正样本建立合成正样本,使得合成正样本也与正样本存在特征值上的相似性,相对于现有技术针对不平衡样本集进行简单复制某些正样本的过抽样处理方法而言,提高了平衡样本集的真实性。根据本申请生成的真实性较高的平衡样本集进行模型训练后,模型的性能也会得到提升。

实施例4

在实施例2中已经介绍了一种针对不平衡信用样本进行信用模型训练的方法,并且在实际应用中,平衡样本的目的大部分还是用在训练模型上,所以,基于相同的发明构思,本实施例4提供一种针对不平衡样本集的模型训练方法,对不平衡样本集进行样本平衡后再训练模型,从而提高模型的性能。该方法的流程示意图如图12所示,包括下述步骤:

步骤41:获取不平衡样本集。

该步骤中,不平衡样本集中可以包含负样本和正样本,且负样本与正样本的样本数量比大于不平衡阈值。在实际应用中,也可以以包含的内容为条件,判断样本集是否为不平衡样本集,比如,接收到某个样本集,判断该样本集中是否只包含两种样本,再判断出负样本与正样本的样本数量比是否大于不平衡阈值(如1.2),根据判断结果确定出是否为不平衡样本,以便再进行后续操作。

步骤42:根据不平衡样本集中的正样本,以及与正样本相邻的样本,建立合成正样本。

该步骤中,可以分解为三个子步骤,即实施例1中介绍的步骤11、步骤12 和步骤13,目的就是通过正样本以及与每个正样本相邻的负样本和/或正样本,建立合成正样本,从而达到样本平衡的目的。详细步骤已经在实施例1中介绍,此处不再赘述。

步骤43:当合成正样本与正样本的数量之和与负样本数量的比值在平衡阈值区间内时,将合成正样本修改为正样本,生成平衡样本集。

该步骤就是利用步骤42建立的合成正样本,通过判断代表正样本的合成正样本与正样本的数量之和是否与负样本达到平衡,来生成平衡样本集的过程,详细步骤已经在实施例1中介绍,此处不再赘述。

步骤44:根据平衡样本集进行模型训练。

采用实施例4提供的该方法,对于获取到的不平衡样本集,利用与正样本相邻的样本建立与正样本相关的样本,从而提高了平衡样本集的真实性。再根据真实性较高的平衡样本集进行模型训练,模型的性能也会得到提升。

实施例5

基于相同的发明构思,实施例5提供了一种针对不平衡样本集的模型训练装置,对不平衡样本集进行样本平衡后再训练模型,从而提高模型的性能。图13为该装置的结构框图,该装置包括:

样本集获取单元51、样本建立单元52、样本集生成单元53以及模型训练单元54,其中,

样本集获取单元51,可以用于获取不平衡样本集,不平衡样本集中包含负样本和正样本,且负样本与正样本的样本数量比大于不平衡阈值,所述不平衡阈值大于1;

样本建立单元52,可以用于根据不平衡样本集中的正样本,以及与正样本相邻的样本,建立合成正样本,与正样本相邻的样本包含负样本和/或正样本;

样本集生成单元53,可以用于当合成正样本与正样本的数量之和与负样本数量的比值在平衡阈值区间内时,将合成正样本修改为正样本,生成平衡样本 集;

模型训练单元54,可以用于根据平衡样本集进行模型训练。

在一种实施方式中,样本建立单元52包括:正样本选取单元31、样本集合选取单元32以及合成正样本建立单元33,其中,

正样本选取单元31,可以用于从不平衡样本集中选取一个正样本;

样本集合选取单元32,可以用于以一个正样本为基准,从样本空间中选取与一个正样本相邻的样本集合,样本集合中包含负样本和/或正样本;

合成正样本建立单元33,可以用于根据一个正样本与样本集合中的样本在样本空间中分别对应的特征和特征值,在一个正样本与样本集合中的样本之间建立合成正样本。

在一种实施方式中,样本集生成单元53包括:判断单元34、平衡样本集生成单元35以及跳转单元,其中,

判断单元34,可以用于判断合成正样本与正样本的数量之和与负样本数量的比值是否在平衡阈值区间内;

平衡样本集生成单元35,可以用于当判断结果为是时,将合成正样本修改为正样本,生成平衡样本集;

跳转单元,可以用于当判断结果为否,且小于所述平衡阈值区间的最小值时,跳转执行所述样本建立单元。

在一种实施方式中,样本集合选取单元32,可以用于:

根据样本数量比,以及一个正样本在样本空间中与至少一个正样本之间的距离,确定相邻距离阈值;

根据相邻距离阈值以及样本数量比,以一个正样本为基准,从样本空间中选取与一个正样本相邻的样本集合。

在一种实施方式中,合成正样本建立单元33,可以用于:

根据一个正样本与样本集合中的样本在样本空间中分别对应的特征值,在一个正样本与样本集合中的样本的中间位置建立合成正样本。

采用实施例5提供的该装置,对于获取到的不平衡样本集,利用与正样本相邻的样本建立与正样本相关的样本,从而提高了平衡样本集的真实性。再根据真实性较高的平衡样本集进行模型训练,模型的性能也会得到提升。

实施例6

现有技术,对个人信用的评分方法是基于简单的规则,比如,新的个人信用分数为1,如果当月按期还款,则在原有基础上加0.1的分数,当季度基、当半年、当年全部按期还款,会有分数不等的加成。但是随着大数据时代的到来,这种简单的评分方法已经不能适应大数据、多维度、多场景的信用评分要求。所以基于与前述实施例相同的发明构思,实施例6提供了一种个人信用评分系统,用于提高个人信用评分的真实性。图14为该系统的结构框图,该系统包括:

原始个人信用建立系统61、样本平衡系统62、信用模型训练系统63、个人信用评分系统64,其中,

原始个人信用建立系统61,可以用于根据用户对应的特征和特征值,建立原始个人信用样本集。

比如,可以在当日获取还款日为前一日的所有用户在前个月对应的特征和特征值,建立原始个人信用样本集。具体地,还款日为10日,在9月11日时,获取用户在8月11日至9月10日的信用数据以及对应的信用记录(逾期或非逾期)。

样本平衡系统62,可以用于对原始个人信用样本集进行样本平衡。

由于逾期毕竟是少数,所以可以根据实施例1中的平衡样本的方式,对原始个人信用样本集进行平衡。

信用模型训练系统63,可以用于根据平衡后的个人信用样本集训练信用模型。

个人信用评分系统64,可以用于根据用户对应的特征和特征值,利用信 用模型对用户的逾期情况进行预测,并根据预测结果进行个人信用评分。

比如,可以在还款日的前若干天,根据用户当月的信用数据,利用信用模型,对用户的逾期情况进行预测,比如99%会还款,或72%会还款,根据预测的结果,可以在原有分数的基础上进行加成,可以利用逻辑回归算法,计算分值,具体比如95%以上,可以加1分,60%以下,会减1分,等等。

采用实施例4提供的该系统,由于按照本申请的平衡样本的方法对不平衡的原始个人信用样本集进行平衡,即修正,形成更加真实的多维度的平衡样本,所以相对于现技术仅靠简单的规则进行评分而言,提高了个人信用分数的真实性,也就更能真实地体现用户的信用度。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程 序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1