信用模型训练方法、信用评分方法、装置及电子设备与流程

文档序号:20782328发布日期:2020-05-19 21:21阅读:212来源:国知局
信用模型训练方法、信用评分方法、装置及电子设备与流程

本发明涉及人工智能技术,尤其涉及一种信用模型训练方法、信用评分方法、装置、电子设备及存储介质。



背景技术:

人工智能(ai,artificialintelligence,)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。机器学习(ml,machinelearning)是一门多领域交叉学科,是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及各个领域。

信用评估是机器学习的重要的应用分支,信用模型能够用户的信用情况进行评估,从而可根据评分实施对应的策略,如对申请信用卡的用户进行信用评分,从而决定是否核卡,核卡的额度及卡等级等;如对申请小额现金贷的用户进行信用评分,从而进行差异化的利率定价。

相关技术提供的信用模型方案中,根据原始特征生成的特征组合与信用结果之间的关联性低,对于训练出的信用模型,存在信用评分的准确性不理想的情况。



技术实现要素:

本发明实施例提供一种信用模型训练方法、信用评分方法、装置、电子设备及存储介质,能够生成与信用结果关联性较好的特征组合,提升根据信用模型进行信用评分的准确性。

本发明实施例的技术方案是这样实现的:

本发明实施例提供一种信用模型训练方法,包括:

从样本信用数据中提取原始特征;

根据所述原始特征生成包括多个特征组合的初代特征群,对所述初代特征群进行特征交叉操作及特征突变操作,得到子代特征群;

对所述子代特征群进行迭代,并在每次迭代后,确定得到的特征组合的适应度,根据所述适应度选取特征组合构成新的子代特征群;

当迭代得到的结果满足停止条件时,停止迭代,得到终代特征群;

构建信用模型,根据所述终代特征群及所述样本信用数据更新所述信用模型的参数。

在上述方案中,所述根据所述原始特征生成包括多个特征组合的初代特征群,包括:

根据设定的运算符对所述原始特征进行组合,直至生成的特征组合的数量满足设定的初代数量,且每个所述特征组合对应二叉树的高度满足设定的高度条件。

在上述方案中,所述对所述初代特征群执行特征交叉操作及特征突变操作,包括:

对所述初代特征群重复执行特征交叉操作及特征突变操作,直至所述初代特征群包括的特征组合的数量满足设定的子代数量,且得到的每个特征组合对应二叉树的高度满足设定的高度条件。

在上述方案中,信用模型训练方法还包括:

当所述样本信用数据中缺失与所述原始特征对应的特征值时,对所述样本信用数据进行特征值填充;

当所述样本信用数据中存在超出特征取值范围的特征值时,去除所述样本信用数据,其中,所述特征取值范围与所述原始特征对应。

本发明实施例提供一种基于信用模型的信用评分方法,包括:

获取用户信用数据;

根据所述信用模型对所述用户信用数据进行处理,得到相应用户的用户信用评分。

本发明实施例提供一种信用模型训练装置,包括:

提取模块,用于从样本信用数据中提取原始特征;

生成模块,用于根据所述原始特征生成包括多个特征组合的初代特征群,对所述初代特征群进行特征交叉操作及特征突变操作,得到子代特征群;

迭代模块,用于对所述子代特征群进行迭代,并在每次迭代后,确定得到的特征组合的适应度,根据所述适应度选取特征组合构成新的子代特征群;

停止模块,用于当迭代得到的结果满足停止条件时,停止迭代,得到终代特征群;

更新模块,用于构建信用模型,根据所述终代特征群及所述样本信用数据更新所述信用模型的参数。

在上述方案中,所述生成模块还用于:

根据设定的运算符对所述原始特征进行组合,直至生成的特征组合的数量满足设定的初代数量,且每个所述特征组合对应二叉树的高度满足设定的高度条件。

在上述方案中,所述生成模块还用于:

对所述初代特征群重复执行特征交叉操作及特征突变操作,直至所述初代特征群包括的特征组合的数量满足设定的子代数量,且得到的每个特征组合对应二叉树的高度满足设定的高度条件。

在上述方案中,所述信用模型训练装置还包括:

填充模块,用于当所述样本信用数据中缺失与所述原始特征对应的特征值时,对所述样本信用数据进行特征值填充;

去除模块,用于当所述样本信用数据中存在超出特征取值范围的特征值时,去除所述样本信用数据,其中,所述特征取值范围与所述原始特征对应。

本发明实施例提供一种基于信用模型的信用评分装置,包括:

获取模块,用于获取用户信用数据;

评分模块,用于根据所述信用模型对所述用户信用数据进行处理,得到相应用户的用户信用评分。

本发明实施例提供一种电子设备,包括:

存储器,用于存储可执行指令;

处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的信用模型训练方法,或者信用评分方法。

本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的信用模型训练方法,或信用评分方法。

本发明实施例具有以下有益效果:

本发明实施例根据原始特征生成初代特征群,然后经过特征交叉操作及特征突变操作生成子代特征群,对子代特征群进行迭代,并在迭代过程中以适应度作为选取标准,生成新的子代特征群,最终迭代完成,得到终代特征群,通过上述的不断迭代的方式,提升了最终得到的特征组合与信用结果之间的关联性,也提升了根据训练出的信用模型进行信用评分的准确性。

附图说明

图1是本发明实施例提供的信用模型训练系统100的一个可选的架构示意图;

图2a是本发明实施例提供的服务器200的一个可选的架构示意图;

图2b是本发明实施例提供的服务器200的另一个可选的架构示意图;

图3是本发明实施例提供的信用模型训练方法的一个可选的流程示意图;

图4a是本发明实施例提供的子树融合操作的示意图;

图4b是本发明实施例提供的子树替换操作的示意图;

图5a是本发明实施例提供的子树突变操作的示意图;

图5b是本发明实施例提供的点突变操作的示意图;

图6是本发明实施例提供的信用评分方法的一个可选的流程示意图;

图7是本发明实施例提供的模型训练及概率预测的流程示意图;

图8是本发明实施例提供的实现特征工程的流程示意图;

图9是本发明实施例提供的对子代特征群进行迭代的流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。

在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。

1)特征工程:指的是建模人员需要针对目标变量,来挑选和构造出一批既具有较好区分度,且与目标变量关联性最强的特征。特征工程是在数据挖掘和机器学习建模过程,最重要同时也是耗费人力最多的一个部分。

2)遗传编程范式:指的是将特征的数学表达式在计算机程序上以类似二叉树的形式表示出来的一种编程方式。

3)区分度:指的是能够将已经表现出信用良好和信用违约的用户区分开来的定量化程度。

4)用户信用评分:指的是先通过模型定量化预测用户的信用违约概率,从而得到的与信用违约概率对应的评分值,通常被用来在银行信用卡申请及消费信贷等场景中用来评估用户的信用状况。

5)适应度:指的是特征与目标变量之间的相关联程度。

6)分类器:用于进行分类任务预测的方式的统称。

发明人在实施本发明的过程中发现,在相关技术提供的特征工程实现方案中,一种是使用传统的统计聚合方式对原始特征进行处理和转换,该种方式需要尝试各种不同的聚合运算来寻找有较好区分度的特征,并且对不同场景的特定问题没有针对性,例如在信用卡申请问题上得到的特征可能效果较好,但是用到另一个消费信贷的样本上,可能区分度就会很差,此外,统计聚合操作通常针对单个特征进行,对特征之间的关联性不能捕捉;第二种方式是对原始特征进行归一化和加权平均的处理,在某种程度上引入了特征之间的关联,但是这种加权的方式依然依赖于人工经验,不同的加权组合方式可能会使特征的区分度有很大差别,而且通过人工调试的方式,也很难找到最佳的加权组合参数。

由上,本发明实施例提供一种信用模型训练方法、信用评分方法、装置、电子设备及存储介质,能够提升生成的特征组合与信用结果之间的关联性,并且提升根据训练出的信用模型进行信用评分的准确性,下面说明本发明实施例提供的电子设备的示例性应用。

参见图1,图1是本发明实施例提供的信用模型训练系统100的一个可选的架构示意图,为实现支撑一个信用模型训练应用,终端400(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,服务器200通过连接数据库500,从而从数据库500中获取数据。作为示例地,终端400可以是银行侧信用卡审核人员持有的终端,或是小额现金贷审核人员持有的终端。

服务器200用于从样本信用数据中提取原始特征;根据所述原始特征生成包括多个特征组合的初代特征群,对所述初代特征群进行特征交叉操作及特征突变操作,得到子代特征群;对所述子代特征群进行迭代,并在每次迭代后,确定得到的特征组合的适应度,根据所述适应度选取特征组合构成新的子代特征群;当迭代得到的结果满足停止条件时,停止迭代,得到终代特征群;构建信用模型,根据所述终代特征群及所述样本信用数据更新所述信用模型的参数。

终端400用于向服务器200发送用户信用数据;服务器200根据所述信用模型对所述用户信用数据进行处理,得到相应用户的用户信用评分;终端400在图形界面410(示例性示出了图形界面410-1和图形界面410-2)显示所述用户信用评分。

值得说明的是,除了图1中所示的,服务器200从数据库500中读取样本信用数据之外,服务器200还可从终端400中获取样本信用数据,本发明实施例对此不做限定。

下面说明本发明实施例提供的电子设备的示例性结果。电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的终端设备,也可以实施为服务器。下面,下面以电子设备为服务器为例进行说明。

参见图2a,图2a是本发明实施例提供的服务器200(例如,可以是图1所示的服务器200)的架构示意图,图2a所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2a中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(dsp,digitalsignalprocessor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(rom,readonlymemory),易失性存储器可以是随机存取存储器(ram,randomaccessmemory)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。

操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;

网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(wifi)、和通用串行总线(usb,universalserialbus)等;

呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);

输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中,本发明实施例提供的信用模型训练装置可以采用软件方式实现,图2a示出了存储在存储器250中的信用模型训练装置2550,其可以是程序和插件等形式的软件,包括以下软件模块:提取模块25501、生成模块25502、迭代模块25503、停止模块25504及更新模块25505,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。

在一些实施例中,本发明实施例提供的信用评分装置也可以采用软件方式实现,参见图2b,图2b除了示出的信用评分装置2551外,其余部分均与图2a相同,此处不再赘述。对于存储在存储器250中的信用评分装置2551,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块25511及评分模块25512,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中,本发明实施例提供的信用模型训练装置及信用评分装置可以采用硬件方式实现,作为示例,本发明实施例提供的信用模型训练装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的信用模型训练方法;本发明实施例提供的信用评分装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的信用评分方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(asic,applicationspecificintegratedcircuit)、dsp、可编程逻辑器件(pld,programmablelogicdevice)、复杂可编程逻辑器件(cpld,complexprogrammablelogicdevice)、现场可编程门阵列(fpga,field-programmablegatearray)或其他电子元件。

本发明实施例提供的信用模型训练方法及信用评分方法可以由上述的服务器执行,也可以由终端设备(例如,可以是图1所示的终端400-1和终端400-2)执行,或者由服务器和终端设备共同执行,下面将结合上文记载的服务器的示例性应用和结构,说明服务器中通过嵌入的信用模型训练装置而实现信用模型训练方法的过程。

参见图3,图3是本发明实施例提供的信用模型训练方法的一个可选的流程示意图,将结合图3示出的步骤进行说明。

在步骤301中,从样本信用数据中提取原始特征。

获取样本信用数据,并从样本信用数据中提取原始特征。样本信用数据是指包括用户的信用结果,且包括与用户相关的特征及特征值的数据,与用户相关的特征例如用户的身份特征(如学历及年龄等)、支付特征(如月均商户支付金额及笔数等)及社交特征(如一度好友数等)等。另外,在提取原始特征时,可将样本信用数据包括的所有特征均确定为原始特征,也可指定部分特征为原始特征,对此不做限定。

在一些实施例中,信用模型训练方法还包括:

当所述样本信用数据中缺失与所述原始特征对应的特征值时,对所述样本信用数据进行特征值填充;当所述样本信用数据中存在超出特征取值范围的特征值时,去除所述样本信用数据,其中,所述特征取值范围与所述原始特征对应。

由于样本信用数据可能在录入过程、存储过程或获取过程中发生差错,或者本身就存在数据问题,故在本发明实施例中,对样本信用数据进行预处理。一方面,当某条样本信用数据中缺失与原始特征对应的特征值,如某条样本信用数据中与原始特征“年龄”对应的值为空值时,对样本信用数据进行特征值填充,此处并不限制特征值填充的方式,如可通过特定值、其余所有样本信用数据中与该原始特征对应的特征值的均值,或其余所有样本信用数据中与该原始特征对应的特征值的中位数,对其进行填充。另一方面,也可设置与原始特征对应的特征取值范围,当某条样本信用数据中存在超出特征取值范围的特征值时,去除该样本信用数据,例如某条样本信用数据中的年龄为200岁,则认定200岁的数据为脏数据,直接去除其所在的样本信用数据,当然,也可应用不去除样本信用数据的方式,而是抹除掉样本信用数据中的脏数据,并对样本信用数据进行特征值填充。通过上述方式提升了样本信用数据的有效性和准确性。

在一些实施例中,信用模型训练方法还包括:

当第一数量大于第二数量时,根据所述第一数量与所述第二数量之间的比值,调整所述第二数量对应的样本信用数据的权重;当所述第二数量大于所述第一数量时,根据所述第二数量与所述第一数量之间的比值,调整所述第一数量对应的样本信用数据的权重;其中,所述第一数量为包括第一信用结果的样本信用数据的数量,所述第二数量为包括第二信用结果的样本信用数据的数量。

在本发明实施例中,信用结果包括第一信用结果及第二信用结果,为了便于理解,后文以第一信用结果为信用良好,第二信用结果为信用违约的形式进行阐述,则在获取样本信用数据之前,还设定信用良好及信用违约的判断条件。例如,对于信用卡场景,当用户在一年内有两次信用卡还款逾期在60天以上,或一次逾期在90天以上时,将用户的信用结果确定为信用违约;当用户按时全额还清借款时,将用户的信用结果确定为信用良好。对于小额现金贷场景,当用户的历史最大借款逾期天数在90天以上时,将用户的信用结果确定为信用违约;当用户按时全额还清借款时,将用户的信用结果确定为信用良好。

在获取样本信用数据,可能存在包括第一信用结果的样本信用数据的第一数量,与包括第二信用结果的样本信用数据的第二数量不相同的问题,针对该情况,当第一数量大于第二数量时,根据第一数量与第二数量之间的比值,调整第二数量对应的,即包括第二信用结果的样本信用数据的权重,如第一数量为300,第二数量为200,则在包括第一信用结果的样本信用数据的权重默认为1的情况下,将包括第二信用结果的样本信用数据的权重设置为1.5;相反地,当第二数量大于第一数量时,根据第二数量与第一数量之间的比值,调整第一数量对应的,即包括第一信用结果的样本信用数据的权重。上述的权重为样本权重(sample_weight),其并不影响样本信用数据中的数据本身,而是决定样本信用数据的重要程度,即决定样本信用数据在所有样本信用数据中的数量占比。通过上述方式保证了两类样本信用数据的数量均衡,提升了后续进行迭代及模型训练的准确性。

在步骤302中,根据所述原始特征生成包括多个特征组合的初代特征群,对所述初代特征群进行特征交叉操作及特征突变操作,得到子代特征群。

在已有原始特征的基础上生成多个特征组合,构成初代特征群,即特征森林,并对初代特征群进行数学变换,具体包括特征交叉操作及特征突变操作,得到子代特征群。

在一些实施例中,可以通过这样的方式实现上述的根据所述原始特征生成包括多个特征组合的初代特征群:

根据设定的运算符对所述原始特征进行组合,直至生成的特征组合的数量满足设定的初代数量,且每个所述特征组合对应二叉树的高度满足设定的高度条件。

在本发明实施例中,可设定运算符,并根据运算符对原始特征进行随机组合,得到特征组合。例如,设定运算符包括一元运算符及二元运算符,一元运算符包括平方根、对数、绝对值、相反数、倒数、正弦、余弦及正切,二元运算符包括加法、减法、乘法、除法、最大值及最小值,除此之外,还可根据设定的常数范围生成一些常数,根据运算符对原始特征及常数进行随机组合。为了防止特征组合无限制地增长,还设置当生成的特征组合的数量满足设定的初代数量,且每个特征组合对应二叉树的高度满足设定的高度条件时,停止组合,得到初代特征群。值得说明的是,本发明实施例的特征组合并不具有对原始特征的独占性,即当某个原始特征出现在一个特征组合中时,该原始特征还可能出现在其他特征组合中。另外,在确定特征组合对应二叉树的高度时,是通过遗传编程范式,将通过数学表达式展现的特征组合,以二叉树的形式表示。通过上述的随机组合的方式,使得可能出现与信用结果关联较强的特征组合。

在一些实施例中,所述特征交叉操作,包括:

任意选取两个特征组合,根据设定的特征交叉概率对选取的两个特征组合进行特征交叉;

所述特征突变操作包括:

任意选取一个特征组合,根据设定的特征突变概率对选取的特征组合进行特征突变。

具体地,在特征交叉概率和特征突变概率之和为1的情况下,根据实际应用场景设置两个概率,例如,设置特征交叉概率为90%,设置特征突变概率为10%。在进行特征交叉操作时,在操作对象如初代特征群中,任意选取两个特征组合,并根据90%的概率对选取的两个特征组合进行特征交叉,具体可在区间[0,1]中生成一个随机数,若生成的随机数大于0.1,则进行特征交叉;反之,则不进行特征交叉,再在操作对象中任意选取两个特征组合。特征突变操作同理,只是不同的是,在特征突变操作中,只选取一个特征组合。上述方式提升了特征组合的丰富度,方便挑选出与信用结果关联性更强的特征组合。

在一些实施例中,根据设定的特征交叉概率对选取的两个特征组合进行特征交叉,包括:

根据设定的子树融合概率对选取的两个特征组合进行子树融合,根据设定的子树替换概率对选取的两个特征组合进行子树替换,其中,所述子树融合概率和所述子树替换概率之和为所述特征交叉概率;

所述根据设定的特征突变概率对选取的特征组合进行特征突变,包括:

根据设定的子树突变概率对选取的特征组合进行子树突变,根据设定的点突变概率对选取的特征组合进行点突变,其中,所述子树突变概率和所述点突变概率之和为所述特征突变概率。

在本发明实施例中,还可将特征交叉操作细分为子树融合操作和子树替换操作,并设置对应的操作发生的概率。子树融合操作是指,对于任意选取的两个特征组合,在每个特征组合中随机选择需要被替换的子树,然后对两个特征组合进行融合,得到一个新的特征组合,则在新的特征组合中不包括被替换的子树,至于旧的特征组合则不保留。作为示例,本发明实施例提供了图4a所示的子树融合操作的示意图,在图4a中,x1、x2、x3、x4和x5代表五个特征,第一个特征组合对应的数学表达式为第二个特征组合对应的数学表达式为0.1+(x4+x5),图4a中的虚线框即为随机选择出的被替换的子树,将两个特征组合进行融合后,得到新的特征组合,新的特征组合的表达式为(x4+x5)·(x3-0.5)。

子树替换操作是指,对于任意选取的两个特征组合,随机选择其中一个特征组合中被替换的子树,将其替换为另一个特征组合。作为示例,本发明实施例提供了图4b所示的子树替换操作的示意图,在图4b中,第一个特征组合对应的数学表达式为第二个特征组合对应的数学表达式为x4+x5,将第一个特征组合中的替换为第二个特征组合后,得到新的特征组合,新的特征组合的表达式为(x4+x5)·(x3-0.5)。

在本发明实施例中,还可将特征突变操作细分为子树突变操作和点突变操作,并设置对应的操作发生的概率。子树突变操作类似于剪枝,具体是指对于任意选取的一个特征组合,随机选择该特征组合中需要被去掉的部分,并去掉选择的部分,得到新的特征组合。作为示例,本发明实施例提供了图5a所示的子树突变操作的示意图,在图5a中,原有的特征组合的表达式为x1及除法运算符是被选择出的需要去掉的部分,去掉之后,得到新的特征组合,新的特征组合的表达式为x2·(x3-0.5)。

点突变操作是指对于任意选取的一个特征组合,随机选择该特征组合中需要进行突变的部分,当选择的是运算符时,将选择的运算符随机变换为另一种运算符;当选择的是常数时,将选择的常数随机变换为设定常数范围内的任意常数,从而得到新的特征组合。作为示例,本发明实施例提供了图5b所示的点突变示意图,在图5b中,原有的特征组合的表达式为除法运算符及常数0.5是被选择出的需要替换的部分,进行替换后,得到新的特征组合,新的特征组合的表达式为(x1-x2)·(x3-1.2)。

值得说明的是,在子树融合概率、子树替换概率、子树突变概率及点突变概率设置完成之后,可将其应用于本发明实施例中的任意步骤,不需在后续的每次迭代中重新生成。此外,子树融合操作、子树替换操作、子树突变操作及点突变操作并不存在执行时机上的先后顺序。

在一些实施例中,可以通过这样的方式实现上述的对所述初代特征群执行特征交叉操作及特征突变操作:

对所述初代特征群重复执行特征交叉操作及特征突变操作,直至所述初代特征群包括的特征组合的数量满足设定的子代数量,且得到的每个特征组合对应二叉树的高度满足设定的高度条件。

其中,从初代特征群开始,其后的每代特征群包括的特征组合数量应当是逐渐减少的,故设置子代数量小于初代数量。至于高度条件,则可设置为固定值。

在步骤s303中,对所述子代特征群进行迭代,并在每次迭代后,确定得到的特征组合的适应度,根据所述适应度选取特征组合构成新的子代特征群。

对子代特征群进行至少两次迭代,并在每次迭代后,确定得到的特征组合的适应度,该适应度用于表征特征组合与信用结果之间的关联程度。根据适应度选取特征组合构成新的子代特征群,具体可根据设定的数量或者比例,选取适应度较高的特征组合,构成新的子代特征群,进行下一次迭代。

在一些实施例中,可以通过这样的方式实现上述的对所述子代特征群进行迭代:

在每次迭代中,对所述子代特征群重复执行所述特征交叉操作及所述特征突变操作,直至所述子代特征群中的特征组合的数量满足当前轮次迭代对应的子代数量,且得到的每个特征组合对应二叉树的高度满足设定的高度条件。

随着一次一次地迭代,设置的子代数量逐渐减少,保证特征群中特征组合的数量随之减少。

在一些实施例中,可以通过这样的方式实现上述的确定得到的特征组合的适应度:

将所述子代特征群内的特征组合,与所述样本信用数据包括的信用结果之间的线性相关系数确定为适应度;或者,

将所述子代特征群内的特征组合,与所述样本信用数据包括的信用结果之间的非线性相关系数确定为适应度。

本发明实施例中的适应度可为线性相关系数或非线性相关系数,其中,线性相关系数如皮尔逊相关系数,非线性相关系数如斯皮尔曼相关系数。对于子代特征群中的特征组合,根据下列公式计算特征组合与信用结果之间的皮尔逊系数:

其中,r为皮尔逊系数,n是样本信用数据的总数量,n为大于零的整数,该公式中的xi是指第i个样本信用数据按照特征组合的表达式,计算出的值;是指所有样本信用数据按照特征组合的表达式,所计算出的值的均值;yi是指第i个样本信用数据的信用结果,是指所有样本信用数据的信用结果的均值。其中,为了便于计算,示例性地,将信用良好对应的数值设置为0,将信用违约对应的数值设置为1。

对于子代特征群中的特征组合,根据下列公式计算特征组合与信用结果之间的斯皮尔曼系数:

其中,ρ为斯皮尔曼系数,n是样本信用数据的总数量,n为大于零的整数,di是对所有样本信用数据的信用结果进行排序,并对所有样本信用数据按照特征组合的表达式计算出的值进行排序后,第i个样本信用数据的信用结果的秩次与第i个样本信用数据按照特征组合的表达式计算出的值的秩次之间的差值。值得说明的是,皮尔逊系数和斯皮尔曼系数均可体现特征组合与信用结果之间的关联性,皮尔逊系数偏向于线性的关联性,斯皮尔曼系数偏向于非线性的关联性,可根据实际应用场景选取应用的相关系数。

在步骤304中,当迭代得到的结果满足停止条件时,停止迭代,得到终代特征群。

在本发明实施例中,可设置两类停止条件,一种是设定迭代的最大次数,如迭代五次后,停止迭代,将最后得到的子代特征群确定为终代特征群;另一种是设定适应度阈值,如在适应度为皮尔逊相关系数时,将皮尔逊相关系数阈值设置为0.6,当子代特征群中,存在适应度超过适应度阈值的特征组合,则停止迭代,将该子代特征群确定为终代特征群。

在步骤305中,构建信用模型,根据所述终代特征群及所述样本信用数据更新所述信用模型的参数。

构建用于进行信用评分的信用模型,根据终代特征群及样本信用数据训练信用模型,更新信用模型的参数,则在更新完毕的信用模型中,保存有终代特征群的特征组合与信用结果之间的相关关系。

在一些实施例中,可以通过这样的方式实现上述的根据所述终代特征群及所述样本信用数据更新所述信用模型的参数:

根据适应度从终代特征群中选取特征组合,根据选取的特征组合及样本信用数据更新信用模型的参数。

在终代特征群中,不排除经过特征交叉操作和特征突变操作后,存在适应度较低的特征组合的可能,故在本发明实施例中,从终代特征群中选取适应度较高的特征组合,具体可对多个特征组合进行排序,按照设定的数量或比例选取适应度较高的特征组合,并根据选取的特征组合及样本信用数据更新信用模型的参数。通过上述方式保证了作为训练参数的特征组合与信用结果之间的强关联性。

在一些实施例中,可以通过这样的方式实现上述的构建信用模型,根据所述终代特征群及所述样本信用数据更新所述信用模型的参数:

构建基于线性分类器的信用模型,根据所述终代特征群及所述样本信用数据更新所述信用模型的参数;或者,

构建基于非线性分类器的信用模型,根据所述终代特征群及所述样本信用数据更新所述信用模型的参数。

在实际应用场景中,可基于线性分类器或非线性分类器构建信用模型,其中,线性分类器如逻辑回归分类器,非线性分类器如集成树分类器、梯度提升树(gradientboostingdecisiontree,gbdt)分类器或随机森林分类器等。示例性地,由于线性相关系数偏向于线性关系,非线性相关系数偏向于非线性关系,故当信用模型基于线性分类器构建时,将线性相关系数作为适应度;当信用模型基于非线性分类器构建时,将非线性相关系数作为适应度,从而提升参数更新的准确性。

通过发明实施例对于图3的上述示例性实施可知,本发明实施例根据原始特征生成初代特征群,在初代特征群的基础上不断执行特征交叉操作和特征突变操作,得到终代特征群,根据终代特征群及样本信用数据更新信用模型的参数,提升了生成的特征组合与信用结果之间的关联性,也提升了对信用模型进行参数更新的准确性。

下面将结合上文记载的服务器的示例性应用和结构,说明服务器中通过嵌入的信用评分装置而实现信用评分方法的过程。

参见图6,图6是本发明实施例提供的信用评分方法的一个可选的流程示意图,将结合图6示出的步骤进行说明。

在步骤601中,获取用户信用数据。

获取与原始特征对应的用户信用数据,值得说明的是,与上述的样本信用数据不同,用户信用数据内并未包括信用结果。

在步骤602中,根据所述信用模型对所述用户信用数据进行处理,得到相应用户的用户信用评分。

由于信用模型中保存了终代特征群的特征组合与信用结果之间的相关关系,故在本发明实施例中,根据信用模型对用户信用数据进行处理,具体根据用户信用数据按照终代特征群的特征组合的表达式所计算出的值,以及特征组合与信用结果之间的相关关系,得到预测概率值,该预测概率值与某个信用结果之间的数值差距越小,则证明对应相应用户的信用状况属于该信用结果的可能性越大。对于信用模型的预测概率值,可以将其直接作为用户信用评分,也可将预测概率值转换为一定范围内的用户信用评分,如输出结果为0.1,则将其扩大100倍,得到10分的用户信用评分,从而便于相关人员理解。

在一些实施例中,信用评分方法还包括:

当用户信用评分满足第一数值条件时,确定用户信用数据对应的信用结果为第一信用结果;当用户信用评分满足第二数值条件时,确定用户信用数据对应的信用结果为第二信用结果。

举例来说,假设样本信用数据中信用良好对应的数值为0,信用违约对应的数值为1,且直接将信用模型的预测概率值确定为用户信用评分,则可设置信用良好对应的第一数值条件为用户信用评分小于0.2,设置信用违约对应的第二数值条件为用户信用评分大于或等于0.2,用户信用评分越高,则相应用户违约的可能性越大。当信用模型对用户信用数据处理后得到的预测概率值为0.3时,确定用户信用数据对应的信用结果为信用违约。在信用卡场景中,当用户信用数据对应的信用结果为信用违约时,则可执行拒绝相应用户的申卡,或者调低发放信用卡的等级等操作;在小额现金贷场景中,当用户信用数据对应的信用结果为信用违约时,则可执行增大贷款利率等操作。通过上述方式可自动生成信用结果,进一步减少人工成本。

通过发明实施例对于图6的上述示例性实施可知,本发明实施例根据信用模型对所述用户信用数据进行处理,得到相应用户的用户信用评分,实现了对用户信用状况的自动审核,降低了人工成本,提升了信用评分的准确性。

在一些实施例中,参见图7,图7是本发明实施例提供的模型训练及概率预测的流程示意图,在图7中,首先获取原始特征,并对样本信用数据进行特征预处理,具体当样本信用数据缺失与原始特征对应的特征值,如原始特征对应的值为空值时,对缺失值进行填充;当样本信用数据中与原始特征对应的特征值为异常值时,删去该样本信用数据,或者将该异常值替换为设定值、均值或中位数,上述的均值是指其余样本信用数据中与原始特征对应的值的均值,上述的中位数是指其余样本信用数据中与原始特征对应的值的中位数。然后,对原始特征进行符号回归,具体先根据原始特征随机生成初代特征群,对初代特征群进行特征交叉操作及特征变异操作,得到子代特征群,再对子代特征群进行迭代,并在迭代过程中,采用优胜劣汰的方式,选取适应度较高的特征组合,迭代完成后,最终得到终代特征群。根据样本信用数据以及终代特征群训练分类器,训练好的分类器可对用户信用数据进行处理,从而得到预测概率值,即用户信用评分,其中,分类器可为线性分类器或非线性分类器,并且,除了上述的根据样本信用数据以及终代特征群中全部的特征组合训练分类器外,还可选取终代特征群中适应度较高的特征组合,根据样本信用数据以及选取的特征组合训练分类器。通过发明实施例对于图7的上述示例性实施可知,本发明实施例能够自动生成适应度较高的特征组合,提升了训练出的信用模型的预测效果。

在一些实施例中,参见图8,图8是本发明实施例提供的实现特征工程的流程示意图,在第一部分中,引入一元运算符和二元运算符,根据引入的运算符对经过预处理的特征进行组合,得到初代特征群,初代特征群中包括多个初代特征组合,由于初代特征组合仍是数学表达式的形式,故为了便于计算,引入遗传编程范式,将数学表达式转换为二叉树形式。在第二部分中,对初代特征群中的初代特征组合执行特征交叉操作及特征突变操作,其中,特征交叉操作包括子树融合操作和子树替换操作,特征突变操作包括子树突变操作和点突变操作。在第三部分中,对第二部分得到的子代特征群中的子代特征组合进行迭代,根据优胜劣汰,适者生存的思想,在迭代过程中选取适应度较高的子代特征组合进入下一次迭代。迭代完成后,得到构成终代特征群的终代特征组合,并将二叉树形式重新转换为数学表达式。通过发明实施例对于图8的上述示例性实施可知,本发明实施例通过基于符号回归的特征工程,最终得到适应度较高的终代特征组合,提升了终代特征组合与信用结果之间的关联性。

在一些实施例中,参见图9,图9是本发明实施例提供的对子代特征群进行迭代的流程示意图,在图9中,对于最终分类器是线性分类器的情况,在迭代过程中,确定子代特征组合与信用结果之间的皮尔逊相关系数,将皮尔逊相关系数作为适应度,进行迭代,并将最终的迭代结果输入线性分类器进行训练;对于最终分类器是非线性分类器的情况,在迭代过程中,确定子代特征组合与信用结果之间的斯皮尔曼相关系数,将斯皮尔曼相关系数作为适应度,进行迭代,并将最终的迭代结果输入非线性分类器进行训练。通过发明实施例对于图9的上述示例性实施可知,本发明实施例在最终分类器为线性分类器时,挑选出与信用结果之间的线性关联较强的特征组合,在最终分类器为非线性分类器时,挑选出与信用结果之间的非线性关联较强的特征组合,实现了针对性地迭代,提升了迭代结果与分类器的适配度。

下面继续说明本发明实施例提供的信用模型训练装置2550的实施为软件模块的示例性结构,在一些实施例中,如图2a所示,存储在存储器250的信用模型训练装置2550中的软件模块可以包括:

提取模块25501,用于从样本信用数据中提取原始特征;

生成模块25502,用于根据所述原始特征生成包括多个特征组合的初代特征群,对所述初代特征群进行特征交叉操作及特征突变操作,得到子代特征群;

迭代模块25503,用于对所述子代特征群进行迭代,并在每次迭代后,确定得到的特征组合的适应度,根据所述适应度选取特征组合构成新的子代特征群;

停止模块25504,用于当迭代得到的结果满足停止条件时,停止迭代,得到终代特征群;

更新模块25505,用于构建信用模型,根据所述终代特征群及所述样本信用数据更新所述信用模型的参数。

在一些实施例中,所述特征交叉操作,包括:

任意选取两个特征组合,根据设定的特征交叉概率对选取的两个特征组合进行特征交叉;

所述特征突变操作包括:

任意选取一个特征组合,根据设定的特征突变概率对选取的特征组合进行特征突变。

在一些实施例中,所述根据设定的特征交叉概率对选取的两个特征组合进行特征交叉,包括:

根据设定的子树融合概率对选取的两个特征组合进行子树融合,根据设定的子树替换概率对选取的两个特征组合进行子树替换,其中,所述子树融合概率和所述子树替换概率之和为所述特征交叉概率;

所述根据设定的特征突变概率对选取的特征组合进行特征突变,包括:

根据设定的子树突变概率对选取的特征组合进行子树突变,根据设定的点突变概率对选取的特征组合进行点突变,其中,所述子树突变概率和所述点突变概率之和为所述特征突变概率。

在一些实施例中,迭代模块25503还用于:

在每次迭代中,对所述子代特征群重复执行所述特征交叉操作及所述特征突变操作,直至所述子代特征群中的特征组合的数量满足当前轮次迭代对应的子代数量,且得到的每个特征组合对应二叉树的高度满足设定的高度条件。

在一些实施例中,迭代模块25503还用于:

将所述子代特征群内的特征组合,与所述样本信用数据包括的信用结果之间的线性相关系数确定为适应度;或者,

将所述子代特征群内的特征组合,与所述样本信用数据包括的信用结果之间的非线性相关系数确定为适应度。

在一些实施例中,更新模块25505还用于:

构建基于线性分类器的信用模型,根据所述终代特征群及所述样本信用数据更新所述信用模型的参数;或者,

构建基于非线性分类器的信用模型,根据所述终代特征群及所述样本信用数据更新所述信用模型的参数。

在一些实施例中,信用模型训练装置2550还包括:

第一调整模块,用于当第一数量大于第二数量时,根据所述第一数量与所述第二数量之间的比值,调整所述第二数量对应的样本信用数据的权重;

第二调整模块,用于当所述第二数量大于所述第一数量时,根据所述第二数量与所述第一数量之间的比值,调整所述第一数量对应的样本信用数据的权重;

其中,所述第一数量为包括第一信用结果的样本信用数据的数量,所述第二数量为包括第二信用结果的样本信用数据的数量。

在一些实施例中,生成模块25502还用于:

根据设定的运算符对所述原始特征进行组合,直至生成的特征组合的数量满足设定的初代数量,且每个所述特征组合对应二叉树的高度满足设定的高度条件。

在一些实施例中,生成模块25502还用于:

对所述初代特征群重复执行特征交叉操作及特征突变操作,直至所述初代特征群包括的特征组合的数量满足设定的子代数量,且得到的每个特征组合对应二叉树的高度满足设定的高度条件。

在一些实施例中,信用模型训练装置2550还包括:

填充模块,用于当所述样本信用数据中缺失与所述原始特征对应的特征值时,对所述样本信用数据进行特征值填充;

去除模块,用于当所述样本信用数据中存在超出特征取值范围的特征值时,去除所述样本信用数据,其中,所述特征取值范围与所述原始特征对应。

下面继续说明本发明实施例提供的信用评分装置2551的实施为软件模块的示例性结构,在一些实施例中,如图2b所示,存储在存储器250的信用模型训练装置2551中的软件模块可以包括:

获取模块25511,用于获取用户信用数据;

评分模块25512,用于根据所述信用模型对所述用户信用数据进行处理,得到相应用户的用户信用评分。

本发明实施例提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的方法,例如,如图3示出的信用模型训练方法,或图6示出的信用评分方法。

在一些实施例中,存储介质可以是fram、rom、prom、eprom、eeprom、闪存、磁表面存储器、光盘、或cd-rom等存储器;也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(html,hypertextmarkuplanguage)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。

作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述,通过本发明实施例中基于符号回归的特征工程对原始特征进行处理得到终代特征群,减少了时间成本和人工成本,并且提升了最终得到的特征组合与信用结果之间的关联性;根据终代特征群及样本信用数据训练信用模型,能够通过信用模型对用户信用数据进行信用评分,实现了对信用状况的快速评估,提升了信用评分的准确性。

以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1