基于数据集优化的信用评估方法及装置与流程

文档序号:18632651发布日期:2019-09-11 21:49阅读:191来源:国知局
基于数据集优化的信用评估方法及装置与流程

本申请涉及金融领域,具体而言,涉及一种基于数据集优化的信用评估方法及装置。



背景技术:

通过对信贷决策的风险分析,能够识别出信用记录有限或不良的人群的潜在风险。

发明人发现,用户信用信息的数据集通常包含各种属性,但许多属性是相关的或冗余的,导致信用评估结果的不准确。

针对相关技术中信用评估结果的不准确的问题,目前尚未提出有效的解决方案。



技术实现要素:

本申请的主要目的在于提供一种基于数据集优化的信用评估方法及装置,以解决信用评估结果的不准确的问题。

为了实现上述目的,根据本申请的一个方面,提供了一种基于数据集优化的信用评估方法。

根据本申请的基于数据集优化的信用评估方法包括:确定数据集中不同特征属性之间的特征依赖度,并生成基于特征依赖度的训练集;根据所述基于特征依赖度的训练集,训练得到异构集合分类模型;动态选择所述异构集合分类模型中的所述基分类器合并所述基分类器的分类结果,获得信用评估结果。

进一步地,确定数据集中不同特征属性之间的特征依赖度,并生成基于特征依赖度的训练集包括:采用基于粗糙集的属性约简子集和基于特征依赖度的特征选择,生成用于训练所述基分类器的约简子集。

进一步地,采用基于粗糙集的属性约简子集包括:随机生成第n个约简子集;通过使用特征依赖度计算所述第n个约简子集中特征之间的依赖度;在生成第n+1、n+2…个约简子集前从数据集中移除第一特征,以使第一特征不会包含在之后生成的第n+m个用于训练基分类器的约减子集中;其中,n、m为整数。

进一步地,基于特征依赖度的特征选择包括:基于所述特征依赖度描述在不同特征之间的重建能力;通过使用所述特征依赖度,作为优化属性约简子集的该度量指标;当第一特征可以由第二或/或第三特征构建时,以使所述第一特征在删除后数据是无损的。

进一步地,确定数据集中不同特征属性之间的特征依赖度,并生成基于特征依赖度的训练集之前,还包括:根据预设特征依赖度过滤用户信用数据集中的冗余特征。

为了实现上述目的,根据本申请的另一方面,提供了一种基于数据集优化的信用评估装置。

根据本申请的基于数据集优化的信用评估装置包括:确定模块,用于确定数据集中不同特征属性之间的特征依赖度,并生成基于特征依赖度的训练集;训练模块,用于根据所述基于特征依赖度的训练集,训练得到异构集合分类模型;动态选择模块,用于动态选择所述异构集合分类模型中的所述基分类器;合并模块,用于合并所述基分类器的分类结果,获得信用评估结果。

进一步地,所述确定模块,还用于采用基于粗糙集的属性约简子集和基于特征依赖度的特征选择,生成用于训练所述基分类器的约简子集。

进一步地,所述确定模块包括:随机生成单元,用于随机生成第n个约简子集;依赖度计算单元,用于通过使用特征依赖度计算所述第n个约简子集中特征之间的依赖度;生成单元,用于在生成第n+1、n+2…个约简子集前从数据集中移除第一特征,以使第一特征不会包含在之后生成的第n+m个用于训练基分类器的约减子集中;其中,n、m为整数。

进一步地,所述确定模块包括:描述单元,用于基于所述特征依赖度描述在不同特征之间的重建能力;优化单元,用于通过使用所述特征依赖度,作为优化属性约简子集的该度量指标;删除单元,用于当第一特征可以由第二或/或第三特征构建时,以使所述第一特征在删除后数据是无损的。

进一步地,装置还包括:冗余模块,用于根据预设特征依赖度过滤用户信用数据集中的冗余特征。

在本申请实施例中基于数据集优化的信用评估方法及装置,采用确定数据集中不同特征属性之间的特征依赖度,并生成基于特征依赖度的训练集的方式,通过根据所述基于特征依赖度的训练集,训练得到异构集合分类模型,动态选择所述异构集合分类模型中的所述基分类器,达到了合并所述基分类器的分类结果,获得信用评估结果的目的,从而实现了优化数据集后提高信用评估结果的技术效果,进而解决了信用评估结果的不准确的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请第一实施例的基于数据集优化的信用评估方法流程示意图;

图2是根据本申请第二实施例的基于数据集优化的信用评估方法流程示意图;

图3是根据本申请第三实施例的基于数据集优化的信用评估方法流程示意图;

图4是根据本申请第四实施例的基于数据集优化的信用评估方法流程示意图;

图5是根据本申请第一实施例的基于数据集优化的信用评估装置结构示意图;

图6是根据本申请第二实施例的基于数据集优化的信用评估装置结构示意图;

图7是根据本申请第三实施例的基于数据集优化的信用评估装置结构示意图;

图8是根据本申请第四实施例的基于数据集优化的信用评估装置结构示意图;

图9是本申请的实现原理示意图;

图10是根据生成基分类器示意图;

图11是动态选择基分类器示意图;

图12是合并基分类器的分类结果示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。

并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。

此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本申请中的基于数据集优化的信用评估方法,通过特征依赖度的指标可以进一步消除数据集中的信息冗余,从而提高训练得到的基分类器的准确性。

同时将基于特征依赖度的训练集生成,异构集合模型和动态选择基分类器,结合起来进行信用评分。通过机器学习算法和多维客户数据的积累,并使用机器学习方法开发信用评分模型可以降低违约风险已成为风险评估的趋势。

如图1所示,该方法包括如下的步骤s102至步骤s108:

步骤s102,确定数据集中不同特征属性之间的特征依赖度,并生成基于特征依赖度的训练集;

在本申请的实施例中,确定用户信用信息数据集中的不同特征属性之间的特征依赖度之后,可生成基于特征依赖度的训练集。基于特征依赖度的训练集相比所述数据集去除了冗余或相关重复。

需要注意的是,获取用户信用数据集之后通常包含各种属性,但在大多数情况下,许多属性是相关的或冗余的,导致产生低性能和低准确性的模型。良好的特征筛选策略将提高模型集合的准确性,若这些分类器基于不同属性的数据子集训练,则更有可能获得高度多样性的基分类器。

步骤s104,根据所述基于特征依赖度的训练集,训练得到异构集合分类模型;

根据上述步骤中获得的所述基于特征依赖度的训练集,训练得到异构集合分类模型。在所述异构集合分类模型中的基分类器可以是采用:lr、svm、knn、xgboost、dt等的分类器。

需要注意的是,在本申请的实施例中并不对基分类器的数量或类型进行限定,本领域技术人员可以根据实际使用场景进行选择,只要能够满足分类器的要求即可。

步骤s106,动态选择所述异构集合分类模型中的所述基分类器;

采用无监督聚类的方式,训练验证集和样本集。通过判断是否满足预设信用评估条件,可以在所述多个基分类器中动态选择出符合条件的基分类器。基分类器基于不同属性的数据子集训练,可以获得更多具有多样性的基分类器。

通过动态选择出所述多个基分类器中的满足预设信用评估条件的所述基分类器时,基于对基分类器的性能评估结果,并根据性能评估结果排序靠前的基分离器作为更加适合的分类器。

步骤s108,合并所述基分类器的分类结果,获得信用评估结果。

对所述基分类器预测结果进行相关结果合并,得到个人信用评估分类结果。比如分类输出的结果可以是“好”客户或“坏”客户。

通过合并基分类器的分类结果,能够提升对个人用户信用的评估结果。

从以上的描述中,可以看出,本申请实现了如下技术效果:

在本申请实施例中,采用确定数据集中不同特征属性之间的特征依赖度,并生成基于特征依赖度的训练集的方式,通过根据所述基于特征依赖度的训练集,训练得到异构集合分类模型,动态选择所述异构集合分类模型中的所述基分类器,达到了合并所述基分类器的分类结果,获得信用评估结果的目的,从而实现了优化数据集后提高信用评估结果的技术效果,进而解决了信用评估结果的不准确的技术问题。

根据本申请实施例,作为本实施例中的优选,如图2或图3所示,确定数据集中不同特征属性之间的特征依赖度,并生成基于特征依赖度的训练集包括:

步骤s202,采用基于粗糙集的属性约简子集和基于特征依赖度的特征选择,生成用于训练所述基分类器的约简子集。

具体地,通过对粗糙集中约减子集中特征间的依赖性进行量化。在粗糙集中的依赖度描述决策属性对条件属性的依赖性,它描述了条件属性对决策属性的近似程度和条件属性重要程度。在所述粗糙集中的依赖度可以推广到衡量特征之间的依赖度。

如果给定信息系统s=(u,c∪d,v,f),a是s的一个属性约简。对于任何a∈c,可以定义特征依赖度如下:

其中,rf(a)表示特征集f对特征a的近似能力。如果特征a可以由特征f完全重建,则称特征a完全取决于f。此时,可以删除特征a而不影响数据集的辨识能力,因为f可以完全重建c。利用特征依赖度可发现特征a∈a是否与特征集f有很强的依赖关系。

基于上述原理,具体地,在本申请的实施例中由于特征依赖度描述了特征之间的重建能力,因此可以使用该度量指标优化属性约减子集。如果某一特征可以完全由其他特征构建,则从信息冗余角度考虑删除此特征是无损的。进一步,为了产生多样化的属性约减子集,首先随机生成一个约减子集,在产生其他约减子集之前,使用特征依赖度计算随机生成的约减子集中特征之间的依赖度,找到可以由其他特征很好地重建的该特征方法。因此,为确保下一个选择的约减子集中不具有某一特征,将在生成其他约减子集前从数据集中移除该特征。因此该特征将不会包含在以后生成的约减子集中。

根据本申请实施例,作为本实施例中的优选,如图2所示,采用基于粗糙集的属性约简子集包括:

步骤s302,随机生成第n个约简子集;

步骤s304,通过使用特征依赖度计算所述第n个约简子集中特征之间的依赖度;

步骤s306,在生成第n+1、n+2…个约简子集前从数据集中移除第一特征,以使第一特征不会包含在之后生成的第n+m个用于训练基分类器的约减子集中;其中,n、m为整数。

具体地,对于测试样本,首先,使用无监督算法找到来自验证集的n个最近邻居,然后,使用在训练得到异构集合学习模型中的基本分类器预先计算n个邻居的分类结果。最后,在每种类型的基分类器中选择评估性能最好的几个基分类器。

通过基于特征依赖度,并通过动态选择异构集成学习模型来提高信用评分的预测性能,在训练基础分类器之前过滤冗余特征可以提高集合模型的准确性。

根据本申请实施例,作为本实施例中的优选,如图3所示,基于特征依赖度的特征选择包括:

步骤s402,基于所述特征依赖度描述在不同特征之间的重建能力;

步骤s404,通过使用所述特征依赖度,作为优化属性约简子集的该度量指标;

步骤s406,当第一特征可以由第二或/或第三特征构建时,以使所述第一特征在删除后数据是无损的。

具体地,在本申请的实施例中由于特征依赖度描述了特征之间的重建能力,因此可以使用该度量指标优化属性约减子集。如果某一特征可以完全由其他特征构建,则从信息冗余角度考虑删除此特征是无损的。进一步,为了产生多样化的属性约减子集,首先随机生成一个约减子集,在产生其他约减子集之前,使用特征依赖度计算随机生成的约减子集中特征之间的依赖度,找到可以由其他特征很好地重建的该特征方法。

根据本申请实施例,作为本实施例中的优选,如图4所示,确定数据集中不同特征属性之间的特征依赖度,并生成基于特征依赖度的训练集之前,还包括:步骤s502,根据预设特征依赖度过滤用户信用数据集中的冗余特征。

具体地,利用特征依赖度消除粗糙集属性约减子集中的冗余特征,并同时结合基于特征依赖度的训练集生成、异构集合模型以及动态选择基分类器三方面组合起来进行用户个人信用评分。优选地,利用数据样本扰动、特征扰动和算法参数扰动来提高基学习器的多样性。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例,还提供了一种用于实施上述方法的基于数据集优化的信用评估装置,如图5所示,该装置包括:确定模块10,用于确定数据集中不同特征属性之间的特征依赖度,并生成基于特征依赖度的训练集;训练模块20,用于根据所述基于特征依赖度的训练集,训练得到异构集合分类模型;动态选择模块30,用于动态选择所述异构集合分类模型中的所述基分类器;合并模块40,用于合并所述基分类器的分类结果,获得信用评估结果。

本申请实施例的确定模块10中在本申请的实施例中,确定用户信用信息数据集中的不同特征属性之间的特征依赖度之后,可生成基于特征依赖度的训练集。基于特征依赖度的训练集相比所述数据集去除了冗余或相关重复。

需要注意的是,获取用户信用数据集之后通常包含各种属性,但在大多数情况下,许多属性是相关的或冗余的,导致产生低性能和低准确性的模型。良好的特征筛选策略将提高模型集合的准确性,若这些分类器基于不同属性的数据子集训练,则更有可能获得高度多样性的基分类器。

本申请实施例的训练模块20中根据上述步骤中获得的所述基于特征依赖度的训练集,训练得到异构集合分类模型。在所述异构集合分类模型中的基分类器可以是采用:lr、svm、knn、xgboost、dt等的分类器。

需要注意的是,在本申请的实施例中并不对基分类器的数量或类型进行限定,本领域技术人员可以根据实际使用场景进行选择,只要能够满足分类器的要求即可。

本申请实施例的动态选择模块30中采用无监督聚类的方式,训练验证集和样本集。通过判断是否满足预设信用评估条件,可以在所述多个基分类器中动态选择出符合条件的基分类器。基分类器基于不同属性的数据子集训练,可以获得更多具有多样性的基分类器。

通过动态选择出所述多个基分类器中的满足预设信用评估条件的所述基分类器时,基于对基分类器的性能评估结果,并根据性能评估结果排序靠前的基分离器作为更加适合的分类器。

本申请实施例的合并模块40中对所述基分类器预测结果进行相关结果合并,得到个人信用评估分类结果。比如分类输出的结果可以是“好”客户或“坏”客户。

通过合并基分类器的分类结果,能够提升对个人用户信用的评估结果。

根据本申请实施例,作为本实施例中的优选,所述确定模块10,还用于采用基于粗糙集的属性约简子集和基于特征依赖度的特征选择,生成用于训练所述基分类器的约简子集。

本申请实施例中具体地,通过对粗糙集中约减子集中特征间的依赖性进行量化。在粗糙集中的依赖度描述决策属性对条件属性的依赖性,它描述了条件属性对决策属性的近似程度和条件属性重要程度。在所述粗糙集中的依赖度可以推广到衡量特征之间的依赖度。

如果给定信息系统s=(u,c∪d,v,f),a是s的一个属性约简。对于任何a∈c,可以定义特征依赖度如下:

其中,rf(a)表示特征集f对特征a的近似能力。如果特征a可以由特征f完全重建,则称特征a完全取决于f。此时,可以删除特征a而不影响数据集的辨识能力,因为f可以完全重建c。利用特征依赖度可发现特征a∈a是否与特征集f有很强的依赖关系。

基于上述原理,具体地,在本申请的实施例中由于特征依赖度描述了特征之间的重建能力,因此可以使用该度量指标优化属性约减子集。如果某一特征可以完全由其他特征构建,则从信息冗余角度考虑删除此特征是无损的。进一步,为了产生多样化的属性约减子集,首先随机生成一个约减子集,在产生其他约减子集之前,使用特征依赖度计算随机生成的约减子集中特征之间的依赖度,找到可以由其他特征很好地重建的该特征方法。因此,为确保下一个选择的约减子集中不具有某一特征,将在生成其他约减子集前从数据集中移除该特征。因此该特征将不会包含在以后生成的约减子集中。

根据本申请实施例,作为本实施例中的优选,如图6所示,所述确定模块10包括:随机生成单元101,用于随机生成第n个约简子集;依赖度计算单元102,用于通过使用特征依赖度计算所述第n个约简子集中特征之间的依赖度;生成单元103,用于在生成第n+1、n+2…个约简子集前从数据集中移除第一特征,以使第一特征不会包含在之后生成的第n+m个用于训练基分类器的约减子集中;其中,n、m为整数。

本申请实施例中具体地,对于测试样本,首先,使用无监督算法找到来自验证集的n个最近邻居,然后,使用在训练得到异构集合学习模型中的基本分类器预先计算n个邻居的分类结果。最后,在每种类型的基分类器中选择评估性能最好的几个基分类器。

通过基于特征依赖度,并通过动态选择异构集成学习模型来提高信用评分的预测性能,在训练基础分类器之前过滤冗余特征可以提高集合模型的准确性。

根据本申请实施例,作为本实施例中的优选,如图7所示,所述确定模块10包括:描述单元104,用于基于所述特征依赖度描述在不同特征之间的重建能力;优化单元105,用于通过使用所述特征依赖度,作为优化属性约简子集的该度量指标;删除单元106,用于当第一特征可以由第二或/或第三特征构建时,以使所述第一特征在删除后数据是无损的。

本申请实施例中具体地,在本申请的实施例中由于特征依赖度描述了特征之间的重建能力,因此可以使用该度量指标优化属性约减子集。如果某一特征可以完全由其他特征构建,则从信息冗余角度考虑删除此特征是无损的。进一步,为了产生多样化的属性约减子集,首先随机生成一个约减子集,在产生其他约减子集之前,使用特征依赖度计算随机生成的约减子集中特征之间的依赖度,找到可以由其他特征很好地重建的该特征方法。

根据本申请实施例,作为本实施例中的优选,如图8所示,装置还包括:冗余模块50,用于根据预设特征依赖度过滤用户信用数据集中的冗余特征。

本申请实施例冗余模块50中具体地,利用特征依赖度消除粗糙集属性约减子集中的冗余特征,并同时结合基于特征依赖度的训练集生成、异构集合模型以及动态选择基分类器三方面组合起来进行用户个人信用评分。优选地,利用数据样本扰动、特征扰动和算法参数扰动来提高基学习器的多样性。

如图9-图12,是本申请的实现原理分步示意图。

其中,图9中包括了主要三个步骤:步骤1,生成基分类器;步骤2,动态选择基分类器,步骤3,合并基分类器的分类结果。

在步骤1中,具体地如图10所示,对于训练集(u,a),基于粗糙集的属性约简和基于特征依赖度的特征选择,得到训练集1(u1,a1);训练集2(u2,a2);训练集3(u3,a3)……。并基于所述训练集1(u1,a1);训练集2(u2,a2);训练集3(u3,a3)得到异构的基学习期器:lr、svm、knn、xgboost、dt等的分类器等。

c1(lr)、c1(svm)、c1(knn)、c1(xgboost)、c1(dt)、

c2(lr)、c2(svm)、c2(knn)、c2(xgboost)、c2(dt)、

c3(lr)、c3(svm)、c3(knn)、c3(xgboost)、c3(dt)….。

在步骤1中由于特征依赖度描述了特征之间的重建能力,因此可以使用该度量指标优化属性约减子集。如果某一特征可以完全由其他特征构建,则从信息冗余角度考虑删除此特征是无损的。进一步,为了产生多样化的属性约减子集,首先随机生成一个约减子集,在产生其他约减子集之前,使用特征依赖度计算随机生成的约减子集中特征之间的依赖度,找到可以由其他特征很好地重建的该特征方法。因此,为确保下一个选择的约减子集中不具有某一特征,将在生成其他约减子集前从数据集中移除该特征。因此该特征将不会包含在以后生成的约减子集中。

在步骤2中,具体地如图11所示,采用验证集和测试样本x,进行无监督聚类,得到的结果作为测试样本x的k个邻近样本。同时基于上个步骤获得的ci(lr)、ci(svm)、ci(knn)、ci(xgboost)、ci(dt),i=1,2,….n。通过评估分类器上的分离器性能并进行排序,得到样本x的基分类器。在步骤2中,对于测试样本x,首先使用无监督算法找到来自验证集的k个最近邻居,然后使用在第一阶段生成的基本分类器预先计算其k个邻居的分类结果。最后,在每种类型的基分类其中选择性能最好的多个基分类器,比如3个基分类器。

在步骤3中,具体地如图12所示,根据测试样x和选出的样本x的基分离器器,对x进行分类预测,然后合并基分类器的结果输出“好”客户或“坏”客户的结果。对于x,在步骤2中选择的分类器首先用于预测分类结果,然后使用多数投票策略来产生最终分类结果。

显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1