基于生成对抗网络的信用评分分类方法、装置及存储介质

文档序号:31350236发布日期:2022-08-31 12:35阅读:50来源:国知局
基于生成对抗网络的信用评分分类方法、装置及存储介质

1.本发明涉及计算机数据处理贷技术领域,特别涉及一种基于生成对抗网络的信用评分分类方法、装置及存储介质。


背景技术:

2.在信用贷款中,评估贷款申请人的信誉度是非常重要的,预测贷款人的信誉度,来决定是否为借款人提供资金已成为信用评分中一个关键问题。
3.在现实世界中,信用数据均存在一个固有的类不平衡问题,即绝大多数是信用良好的用户,只有极少部分是违约用户,信用违约者的数量远远少于信用良好者的数量。而大部分标准分类器均认为两类样本是均匀分布,所以分类器在分类过程中受多数类主导,导致大量的少数类实例被错误的分类到多数类中。信用数据的类不平衡造成分类器在训练时受多数类(未违约者)主导,这导致模型在预测时将大量的少数类(违约者)错误的分类到多数类中,给银行或其他金融机构造成经济损失。
4.因此,从不平衡的数据集中有效地预测信用风险是很困难的,因为不平衡的数据会影响分类模型区分良好借款人和潜在违约者的能力。传统的分类算法会倾向于多数类(违约类)而忽略少数类,使分类器在整个数据中达到很高的准确性。然而,在信用评分中,违约客户的损失会远远大于非违约客户带来的收益。准确预测违约类,可以很大程度上减少损失,因而解决不平衡问题在信用分类中尤为重要。
5.已经有许多基于信用评分模型的决策系统,来帮助银行或贷款平台决定是否向贷款申请人提供信贷。为了提高社会贷款中信用风险预测的可靠性,已有许多统计模型和人工智能模型用于信用风险评估。为了解决信用评分的问题,已经做了很多尝试,主要分为两类,一是数据层面,二是算法层面。在数据层面上解决不平衡是使类达到平衡,重采样是解决数据不平衡的最重要策略之一,算法层面是通过修改或者集成现有算法模型来提高分类性能。


技术实现要素:

6.本发明提供了一种基于生成对抗网络的信用评分分类方法、装置及存储介质,其目的是为了解决信用评分模型无法有效地处理动态模型的不平衡数据分类的问题。
7.为了达到上述目的,本发明的实施例提供了一种基于生成对抗网络的信用评分分类方法,包括步骤:
8.s1,获取数据样本中的距离决策边界预设距离内的边界少数类数据;
9.s2,将所述所述数据样本中的数据数据分割为类别型特征和数值型特征,使用生成对抗网络架构对带有所述数值型特征和所述类别型特征的表格数据进行建模,获得分类模型,所述分类模型由catnn模型和gbdt2nn模型两个神经网络组件线性组合而成;
10.s3,通过训练生成对抗网络来估计数据的分布,并生成少数类数,以对边界少数类数据进行过采样和获得一个平衡的数据集,并使用所述数据集来训练所述分类模型,以获
得修正后的所述分类模型;其中,所述平衡后的数据集中的数据分割为所述类别型特征和所述数值型特征,所述类别型特征放入catnn进行训练,所述数值型特征放入gbdt2nn进行训练;
11.s4,对修正后的所述分类模型进行测试和验证通过后,通过所述catnn模型和gbdt2nn模型分别输出一个分类结果target,再根据对应的权重计算最终的分类结果。
12.进一步地,所述步骤s1包括:
13.s11,从所有的所述数据样本中使用knn算法提取k个最近的数据样本f(a i);
14.s12,在f(a i)中计算属于多数类的数据样本的数量,在所述数量大于或等于k/2且小于k,判断数据a i为边界少数类数据;若否,则判断所述数据a i为远离决策边界或完全被多数类数据包围的数据。
15.进一步地,所述步骤s2包括:
16.s21,生成对抗网络训练条件生成器和判别器;
17.s22,在生成模型训练过程中,将所述所述数据样本中的数据数据分割为类别型特征和数值型特征,对所述类别型特征进行单热编码并使用gumbel-softmax激活函数来建模,将所述数值型特征归一化并使用tanh激活,并将tanh激活和gumbel-softmax激活都放在条件生成器网络的输出上,以生成混合类型的表格数据;
18.s23,通过所述数据样本进行训练获得所述分类模型。
19.进一步地,所述步骤s21包括:先将随机选择的噪声z和来自高斯分布的类条件y连接起来,然后提供给生成器,生成器根据输入(z,y)生成假数据x g;判别器根据y区分x g和x o根据目标函数,生成器和判别器依次更新参数,以获得所述对抗网络训练条件生成器和判别器。
20.进一步地,所述步骤s3中的通过训练生成对抗网络来估计数据的分布,并生成少数类数,以对边界少数类数据进行过采样和获得一个平衡的数据集的步骤,包括:从高斯分布中随机选取一个噪声z,将类条件y设为边界少数类,将变量z和y连接起来,然后输入到所述生成器中,当生成的数据数量达到每个类中数据数量的差异,生成的数据与少数类数据合并,从而获得所述平衡的数据集。
21.本发明还提供了一种计算机装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的基于生成对抗网络的信用评分分类方法的步骤。
22.本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于生成对抗网络的信用评分分类方法的步骤。
23.本发明的上述方案至少有如下的有益效果:
24.在本发明的实施例中,首先考虑基于生成对抗网络的过采样方法,由于在决策边界附近生成少数类数据有助于模型提高了分类性能,因将基于生成对抗网络的方法与决策边界概念相结合,使用生成对抗网络来生成边界类数据,通过对少数类样本进行学习并生成符合少数类数据分布的合成样本,对少数类样本进行数据扩充,该方法不仅可以解决数据的不平衡问题,并同时考虑具有数值型和类别型的特征类型。同时,根据梯度提升决策树能够有效处理密集的数值特征的优势,以及神经网络能够有效处理稀疏离散特征,能够有
效适应在线数据生成的优势,通过集成分类模型,可以有效地从数值型和类别型的数据中提取特征,从而获得更好的信用评估分类结果。针对单一模型无法同时对含连续型和离散型特征进行分类,因此本发明使用集成模型考虑不同模型的的优势,本发明不仅能够同时处理稀疏的类别型数据和密集的数值型数据,而且还能够在线更新。
附图说明
25.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
26.图1是本发明实施例的信用评分模型的构建方法的流程图;
27.图2是本发明实施例的边界少数类数据判断的原理图;
28.图3是本发明实施例的分类模型的建立原理图;
29.图4是本发明实施例的计算机装置的模块示意图。
具体实施方式
30.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
31.需要说明的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
32.如图1所示,本发明的实施例提供了一种基于生成对抗网络的信用评分分类方法,包括步骤:
33.s1,获取数据样本中的距离决策边界预设距离内的边界少数类数据。
34.为了更有效地生成数据,本实施例使用决策边界附近的少数类数据定义了一个边界少数类。许多用于分类的机器学习算法旨在确定类之间的决策边界以提高分类准确性。之前的一些过采样研究也采用了类似的使用决策边界的方法。他们找到了一个估计的决策边界,并利用决策边界附近的数据来生成少数类数据。结果显示分类性能的显着改进。因此受这些研究的启发,本实施例搜索了决策边界附近的少数类数据,复制了它们,并用一个称为边缘少数类的新类标记。在选择边界少数类数据时,本实施例使用b-smote的边界样本选择方法。所述步骤s1包括:
35.s11,从所有的所述数据样本中使用knn算法提取k个最近的数据样本f(a i);
36.s12,在f(a i)中计算属于多数类的数据样本的数量,在所述数量大于或等于k/2且小于k,判断数据a i为边界少数类数据;若否,则判断所述数据a i为远离决策边界或完全被多数类数据包围的数据。
37.s2,将所述所述数据样本中的数据数据分割为类别型特征和数值型特征,使用生成对抗网络架构对带有所述数值型特征和所述类别型特征的表格数据进行建模,获得分类模型,所述分类模型由catnn模型和gbdt2nn模型两个神经网络组件线性组合而成。
38.所述步骤s2包括:
39.将所述所述数据样本中的数据数据分割为类别型特征和数值型特征,使用生成对抗网络架构对带有所述数值型特征和所述类别型特征的表格数据进行建模,获得分类模型,所述分类模型由catnn模型和gbdt2nn模型两个神经网络组件线性组合而成。
40.所述步骤s21包括:先将随机选择的噪声z和来自高斯分布的类条件y连接起来,然后提供给生成器,生成器根据输入(z,y)生成假数据x g;判别器根据y区分x g和x o根据目标函数,生成器和判别器依次更新参数,以获得所述对抗网络训练条件生成器和判别器。
41.s3,通过训练生成对抗网络来估计数据的分布,并生成少数类数,以对边界少数类数据进行过采样和获得一个平衡的数据集,并使用所述数据集来训练所述分类模型,以获得修正后的所述分类模型;其中,所述平衡后的数据集中的数据分割为所述类别型特征和所述数值型特征,所述类别型特征放入catnn进行训练,所述数值型特征放入gbdt2nn进行训练。
42.基于gan的过采样方法可以成功地克服传统过采样方法的局限性,因为它们可以根据训练数据分布生成少数类数据。条件生成对抗网络(cgan)是gan的改进版本,能够进一步增强了分类性能。与gan不同,cgan需要一个条件,并在生成数据时使用该条件。因此,在模型训练中,cgan学习训练集中的所有数据,可以根据给定的类别条件识别类别,而gan只学习少数类别的数据。这种差异提高了数据生成的质量。本实施例通过使用少数类、多数类和边界少数类来训练条件生成对抗网络,可以获得边界生成对抗网络。结合类条件设为边界少数类,对决策边界附近的少数类进行过采样。条件生成器产生的表格数据由数值型和类别型特征组成,因此条件生成器的需要绍包括连续数据生成和离散数据生成两个方面。对于连续数据的生成,每一个连续的列都在预处理中转化为(-1,1)上均匀分布的数据。通过在最后一层应用tanh激活,生成器可以合成相应范围内的连续值。类别型特征对gan提出了挑战,因为生成器和鉴别器需要可微。生成类别型特征的一种直观方法涉及对类别进行单热编码并将softmax激活应用于生成器。然而,这种方法使gan训练复杂化,采样不是可微分的操作,因此使用反向传播训练网络是不可能的。因此对于离散数据生成,本实施例使用单热编码来表示离散值,并在生成器的最后一层使用gumbel-softmax激活来输出离散数据。
43.s4,对修正后的所述分类模型进行测试和验证通过后,通过所述catnn模型和gbdt2nn模型分别输出一个分类结果target,再根据对应的权重计算最终的分类结果。
44.根据平衡后的信用数据集包含数值型和类别型两种类型的数据,但现有的分类器只能够有效的处理单一类型的数据,比如gbdt等树形分类器能够很好的处理数值型数据,但不能很好的处理分类型数据,而且其子树不可微的特性决定了其很难进行线上更新。而神经网络模型与gbdt恰好相反,其能够在线更新,很好地处理分类型特征,但不能很好地处理数值型特征。虽然可以通过一些类型转换的方法将一种类型的数据转换成别的类型的数据,但在转换的过程中会往往会发生信息的丢失等问题。因此提出了一个在线集成信用评分模型。该模型既能够同时处理包含数值型和类别型两种类型特征的数据集,而且能够在
线更新。该在线集成模型充分利用了神经网络模型处理稀疏的离散型特征的优势、批处理的优势、以及gbdt模型处理密集的连续型特征的优势。
45.如图4所示,本发明的实施例还提供了一种计算机装置,包括存储器51、处理器52以及存储在所述存储器51中并可在所述处理器52上运行的计算机程序53,所述处理器52执行所述计算机程序53时实现上述的基于生成对抗网络的信用评分分类方法的步骤。
46.此外,本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于生成对抗网络的信用评分分类方法的步骤。
47.示例性的,计算机可读存储介质的计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。
48.以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1