一种风控评分卡建模区间的划分方法及其划分系统与流程

文档序号:26841255发布日期:2021-10-08 22:51阅读:161来源:国知局
一种风控评分卡建模区间的划分方法及其划分系统与流程

1.本发明涉及金融技术领域,特别是一种风控评分卡建模区间的划分方法及其划分系统。


背景技术:

2.在银行、小额贷款公司、担保公司等金融机构在贷款审批过程中,对客户信息进行风控审核是必不可少的环节。如今金融科技技术高速发展,金融机构借助日益成熟的金融科技技术获取了海量的特征变量,如工商信息、司法涉诉信息、企业经营情况、收支流水、征信报告等,发展出了基于机器学习算法的风控模型,以及相应的风控评分系统。
3.当前的风控模型建模技术一般是采用基于woe编码的风控评分卡模型,这种模型高度依赖特征变量与好坏标签之间的相关性,当相关性较低时,模型区分能力则难以提高,影响评分效果,最终可能导致逾期甚至坏账。
4.woe编码要求对特征变量进行分箱操作,现有的分箱方法包括等距分箱、等频分箱和人工分箱等。其中,等距分箱和等频分箱效果差,未能充分提高特征变量和好坏标签之间的相关性;而人工分箱操作繁琐,面对成千上万个维度的特征分箱工作量巨大,且经人工分箱后特征变量和好坏标签之间相关性也未必能提高。


技术实现要素:

5.针对上述缺陷,本发明的目的在于提出一种风控评分卡建模区间的划分方法及其划分系统,解决了工作量大以及未能充分提高特征变量和好坏标签之间的相关性的问题。
6.为达此目的,本发明采用以下技术方案:一种风控评分卡建模区间的划分方法,包括以下步骤:
7.编码步骤:对特征变量的取值/类别进行编码得到编码值,对编码值进行排序得到个体数组;
8.种群建立步骤:进行多次随机不重复抽取所述个体数组内的编码值的区间后形成多个随机个体,所有所述随机个体建立成种群;
9.解码步骤:对每个随机个体的区间内的编码值进行解码还原成特征变量的取值/类别;
10.最优个体筛选步骤:结合区间内的编码值对应的特征变量和对应的好坏标签,计算各个区间的woe值,并根据同一个随机个体对应的所有区间的woe值得到该随机个体的iv值,筛选出种群中所有随机个体中iv值最大的个体作为最优个体;
11.交叉交换变异步骤:通过对种群的随机个体的区间内的编码值对应特征变量的取值/类别,执行交叉交换算法和变异算法后得到下一代种群;
12.迭代步骤:重复执行种群建立步骤至交叉交换变异步骤,直到iv值不再提高或者迭代次数达到设定值时,当前种群的最优个体为区间划分的最优解。
13.值得说明的是,所述编码步骤包括:
14.当所述特征变量为定量特征变量时,对所述特征变量所有的取值去除重复的取值后升序排列得到定量数组,并取所述定量数组的元素的排列序号作为编码值;
15.当所述特征变量为定性特征变量或者分类特征变量时,对所述特征变量的每个类别的好人占比作升序排列得到定性数组,并取所述定性数组的排列序号作为编码值。
16.可选地,所述最优个体筛选步骤包括:
17.通过以下公式计算所述woe值:
[0018][0019]
通过以下公式计算所述iv值:
[0020][0021]
其中,i为i第个区间;woe
i
为同一个随机个体的第i个区间的woe值;b
i
是第i个区间的坏人率,为第i个区间的坏人数
÷
第i个区间的人数;g
i
是第i个区间的好人率,为第i个区间的好人数
÷
第i个区间的人数;b
total
是同一个随机个体所有区间的坏人率,为随机个体的坏人数
÷
随机个体的人数;g
total
是同一个随机个体所有区间的好人率,为随机个体的好人数
÷
随机个体的人数;iv为所述iv值;n为所述随机个体的区间的总数。
[0022]
具体地,在所述交叉交换变异步骤中,所述交叉交换算法为:对所有所述随机个体的区间内的编码值对应特征变量的取值/类别进行随机选择,并进行位置的随机交叉交换,其中参加交叉交换的特征变量的取值/类别的数量=种群的随机个体数
×
(区间数

1)
×
交叉交换率;
[0023]
所述变异算法为:对所有所述随机个体的区间内的编码值对应特征变量的取值/类别进行随机选择并进行变异,其中参加变异的特征变量的取值/类别的数量=种群的随机个体数
×
(区间数

1)
×
变异率;其中,所述变异算法为均匀分布随机整数变异算子、正态乘数变异算子和正态加数变异算子中的一种或多种的组合。
[0024]
优选的,在所述最优个体筛选步骤和所述交叉交换变异步骤之间还包括精英筛选步骤;
[0025]
所述精英筛选步骤为:
[0026]
选择iv值高的多个随机个体作为胜出者个体并淘汰其他随机个体;
[0027]
复制所述胜出者个体,并将淘汰的其他随机个体恢复;
[0028]
在所述胜出者个体中选择iv值最高的随机个体作为精英个体,所述精英个体不参与所述交叉交换变异步骤。
[0029]
值得说明的是,一种风控评分卡建模区间的划分系统,包括以下模块:
[0030]
编码模块用于对特征变量的取值/类别进行编码得到编码值,还用于对编码值进行排序得到个体数组;
[0031]
种群建立模块用于进行多次随机不重复抽取所述个体数组内的编码值的区间后形成多个随机个体,还用于将所有所述随机个体建立成种群;
[0032]
解码模块用于对每个随机个体的区间内的编码值进行解码还原成特征变量的取
值/类别;
[0033]
最优个体筛选模块用于结合区间内的编码值对应的特征变量和对应的好坏标签,计算各个区间的woe值,还用于根据同一个随机个体对应的所有区间的woe值得到该随机个体的iv值,还用于筛选出当前种群中所有随机个体中iv值最大中个体作为最优个体;
[0034]
交叉交换变异模块用于通过对种群的随机个体的区间内的编码值对应特征变量的取值/类别,执行交叉交换算法和变异算法后得到下一代种群;
[0035]
迭代模块用于重复执行种群建立模块、解码模块、最优个体筛选模块和交叉交换变异模块,直到iv值不再提高或者迭代次数达到设定值时,当前种群的最优个体为区间划分的最优解。
[0036]
具体地,所述编码模块用于当所述特征变量为定量特征变量时,对所述特征变量所有的取值去除重复的取值后升序排列得到定量数组,还用于取所述定量数组的元素的排列序号作为编码值;
[0037]
用于当所述特征变量为定性特征变量或者分类特征变量时,对所述特征变量的每个类别的好人占比作升序排列得到定性数组,还用于取所述定性数组的排列序号作为编码值。
[0038]
可选地,所述最优个体筛选模块用于通过以下公式计算所述woe值:
[0039][0040]
还用于通过以下公式计算所述iv值:
[0041][0042]
其中,i为i第个区间;woe
i
为同一个随机个体的第i个区间的woe值;b
i
是第i个区间的坏人率,为第i个区间的坏人数
÷
第i个区间的人数;g
i
是第i个区间的好人率,为第i个区间的好人数
÷
第i个区间的人数;b
total
是同一个随机个体所有区间的坏人率,为随机个体的坏人数
÷
随机个体的人数;g
total
是同一个随机个体所有区间的好人率,为随机个体的好人数
÷
随机个体的人数;iv为所述iv值;n为所述随机个体的区间的总数。
[0043]
优选的,所述交叉交换变异模块用于通过所述交叉交换算法对所有所述随机个体的区间内的编码值对应特征变量的取值/类别进行随机选择,并进行位置的随机交叉交换,其中参加交叉交换的特征变量的取值/类别的数量=种群的随机个体数
×
(区间数

1)
×
交叉交换率;
[0044]
还用于通过所述变异算法对所有所述随机个体的区间内的编码值对应特征变量的取值/类别进行随机选择并进行变异,其中参加变异的特征变量的取值/类别的数量=种群的随机个体数
×
(区间数

1)
×
变异率;其中,所述变异算法为均匀分布随机整数变异算子、正态乘数变异算子和正态加数变异算子中的一种或多种的组合。
[0045]
具体地,还包括精英筛选模块;
[0046]
所述精英筛选模块用于选择iv值高的多个随机个体作为胜出者个体并淘汰其他随机个体;还用于复制所述胜出者个体,并将淘汰的其他随机个体恢复;还用于在所述胜出者个体中选择iv值最高的随机个体作为精英个体,所述精英个体不参与所述交叉交换变异
模块的执行。
[0047]
上述技术方案中的一个技术方案具有如下有益效果:在所述风控评分卡建模区间的划分方法中,通过编码步骤至迭代步骤的执行,对每个特征变量进行区间划分,避免繁琐的人工区间划分,大幅减少特征变量的区间划分工作量;还能尽可能地提高区间划分的质量,提高区间划分后每个特征变量与好坏标签之间的相关性,从而提高最终的风控评分卡的区分能力和稳定性;本划分方法使用的参数不敏感,区间划分效果稳定,通过多次迭代,在多次分区间划分后的结果接近时,证明已达成较优的区间划分效果,经过多次迭代得到优化的最优个体后,根据解码步骤逆向解码得到编码值对应的取值后,就能得到对应的区间划分的断点。另外,本划分方法只进行单变量的区间划分,避免多变量交叉衍生,保持模型的高解释性和易读性。
附图说明
[0048]
图1是本发明的一个实施例的流程图;
[0049]
图2是本发明的一个实施例中计算iv值的示意图。
具体实施方式
[0050]
下面详细描述本发明的实施方式,实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0051]
下文的公开提供了许多不同的实施方式或例子用来实现本发明的实施方式的不同结构。为了简化本发明的实施方式的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本发明。此外,本发明的实施方式可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。此外,本发明的实施方式提供了的各种特定的工艺和材料的例子,但是本领域普通技术人员可以意识到其他工艺的应用和/或其他材料的使用。
[0052]
如图1和2所示,一种风控评分卡建模区间的划分方法,包括以下步骤:
[0053]
编码步骤:对特征变量的取值/类别进行编码得到编码值,对编码值进行排序得到个体数组;
[0054]
种群建立步骤:进行多次随机不重复抽取所述个体数组内的编码值的区间后形成多个随机个体,所有所述随机个体建立成种群;
[0055]
解码步骤:对每个随机个体的区间内的编码值进行解码还原成特征变量的取值/类别;
[0056]
最优个体筛选步骤:结合区间内的编码值对应的特征变量和对应的好坏标签,计算各个区间的woe值,并根据同一个随机个体对应的所有区间的woe值得到该随机个体的iv值,筛选出种群中所有随机个体中iv值最大的个体作为最优个体;
[0057]
交叉交换变异步骤:通过对种群的随机个体的区间内的编码值对应特征变量的取值/类别,执行交叉交换算法和变异算法后得到下一代种群;
[0058]
迭代步骤:重复执行种群建立步骤至交叉交换变异步骤,直到iv值不再提高或者
迭代次数达到设定值时,当前种群的最优个体为区间划分的最优解。
[0059]
在所述风控评分卡建模区间的划分方法中,通过编码步骤至迭代步骤的执行,对每个特征变量进行区间划分,避免繁琐的人工区间划分,大幅减少特征变量的区间划分工作量;还能尽可能地提高区间划分的质量,提高区间划分后每个特征变量与好坏标签之间的相关性,从而提高最终的风控评分卡的区分能力和稳定性;本划分方法使用的参数不敏感,区间划分效果稳定,通过多次迭代,在多次分区间划分后的结果接近时,证明已达成较优的区间划分效果,经过多次迭代得到优化的最优个体后,根据解码步骤逆向解码得到编码值对应的取值后,就能得到对应的区间划分的断点。另外,本划分方法只进行单变量的区间划分,避免多变量交叉衍生,保持模型的高解释性和易读性。
[0060]
优选的,好坏标签用于标记好人和坏人,坏人是指到期一定时间内未还款的客户,好人是指到期一定时间内还款的客户。
[0061]
所述种群的大小为种群中随机个体的数量,能根据精度和计算量调整,当种群的大小越大,精度越高,计算量就随之增大,所述种群的大小优选为100。所述种群能表现为a行b列的矩阵aa
×
b,a为种群的大小,b为区间的断点的数量,即区间数减1。
[0062]
一些实施例中,所述编码步骤包括:
[0063]
当所述特征变量为定量特征变量时,对所述特征变量所有的取值去除重复的取值后升序排列得到定量数组,并取所述定量数组的元素的排列序号作为编码值;
[0064]
当所述特征变量为定性特征变量或者分类特征变量时,对所述特征变量的每个类别的好人占比作升序排列得到定性数组,并取所述定性数组的排列序号作为编码值。
[0065]
例如,所述特征变量为定量特征变量时,其取值为{10,3,1,7,3},去除重复并升序排序后得到定量数组{1,3,7,10},其中定量数组的元素的排列序号的编码值为{1,2,3,4},那么编码值1就对应定量数组中的1,编码值2就对应定量数组中的3,编码值3就对应定量数组中的7,编码值4就对应定量数组中的10。
[0066]
本划分方法用于对所有训练样本的某一个特征变量,找到最优的区间断点{v1,v2,v3,...,v
i
}得到多个区间,其中第一个区间的特征变量x1符合条件x1<v1,第二个区间的特征变量x2符合条件v1≤x2<v2,第三个区间的特征变量x3符合条件v2≤x3<v3,...,第i个分箱的特征变量x
i
符合条件v
i
‑1≤x
i
<v
i
,第i+1个分箱的特征变量x
i+1
符合条件v
i
≤x
i+1
。由此可见区间数=区间的断点数+1。
[0067]
值得说明的是,所述最优个体筛选步骤包括:
[0068]
通过以下公式计算所述woe值:
[0069][0070]
通过以下公式计算所述iv值:
[0071][0072]
其中,i为i第个区间;woe
i
为同一个随机个体的第i个区间的woe值;b
i
是第i个区间的坏人率,为第i个区间的坏人数
÷
第i个区间的人数;g
i
是第i个区间的好人率,为第i个区
间的好人数
÷
第i个区间的人数;b
total
是同一个随机个体所有区间的坏人率,为随机个体的坏人数
÷
随机个体的人数;g
total
是同一个随机个体所有区间的好人率,为随机个体的好人数
÷
随机个体的人数;iv为所述iv值;n为所述随机个体的区间的总数。
[0073]
如图2所示,当根据编码步骤、种群建立步骤和解码步骤将特征变量的取值/类别的区间总数划分为3个时,区间分为第1个区间、第2个区间和第3个区间,且具有第一断点和第二断点两个断点,第1个区间计算得到woe1,第2个区间计算得到woe2,第3个区间计算得到woe3;然后利用woe1、woe2和woe3就能计算出iv值。
[0074]
不同的断点位置,会导致区间划分的结果存在差异,进而导致iv值存在差异,而iv值是用于衡量特征变量和好坏标签之间的相关性的,特征变量和好坏标签之间的相关性越高,风控评分卡的区分能力越好。
[0075]
可选地,在所述交叉交换变异步骤中,所述交叉交换算法为:对所有所述随机个体的区间内的编码值对应特征变量的取值/类别进行随机选择,并进行位置的随机交叉交换,其中参加交叉交换的特征变量的取值/类别的数量=种群的随机个体数
×
(区间数

1)
×
交叉交换率;
[0076]
所述变异算法为:对所有所述随机个体的区间内的编码值对应特征变量的取值/类别进行随机选择并进行变异,其中参加变异的特征变量的取值/类别的数量=种群的随机个体数
×
(区间数

1)
×
变异率;其中,所述变异算法为均匀分布随机整数变异算子、正态乘数变异算子和正态加数变异算子中的一种或多种的组合。
[0077]
在进行交叉交换算法时,交叉率越大则越倾向于群体进化,交叉率越小则越倾向于个体进化,所述交叉率优选为0.5,能使结果倾向于群体进化。
[0078]
在进行所述变异算法时,变异率越大则越倾向于全局搜索,变异率越小则越倾向于局部搜索,所述变异率优选为0.1,能使结果倾向于全局搜索。
[0079]
均匀分布随机整数变异算子为:生成编码取值范围内均匀分布随机整数,覆盖原来的数值,其搜索范围大,在进化前期(迭代次数较小)时利用其进行全局搜索。正态乘数变异算子为:生成均值为1,标准差为0.1的正态分布随机数,乘上原来的数值并取整,如果大于编码范围则回调至编码最大值,如果小于编码范围则回调至编码最小值,其变异程度小,在进化后期(迭代次数较大)时进行局部优化。正态加数变异算子为:生成均值为0,标准差为断点数
÷
10的正态分布随机数,加上原来的数值并取整,如果大于编码范围则回调至编码最大值,如果小于编码范围则回调至编码最小值,其变异程度小,在进化后期(迭代次数较大)时进行局部优化。
[0080]
具体地,在所述最优个体筛选步骤和所述交叉交换变异步骤之间还包括精英筛选步骤;
[0081]
所述精英筛选步骤为:
[0082]
选择iv值高的多个随机个体作为胜出者个体并淘汰其他随机个体;
[0083]
复制所述胜出者个体,并将淘汰的其他随机个体恢复;
[0084]
在所述胜出者个体中选择iv值最高的随机个体作为精英个体,所述精英个体不参与所述交叉交换变异步骤。
[0085]
精英个体数越大则越侧重局部搜索,越小则越侧重全局搜索。胜出者个体的选择数量优选为20个,精英个体的选择数量优选为2个,使结果侧重全局搜索。所述精英个体不
参与交叉交换算法和变异算法,保留最优个体的性状,直至被其它个体超越,使得种群中的iv值的最高值不会下降,只会不断地提高。
[0086]
一些实施例中,一种风控评分卡建模区间的划分系统,包括以下模块:
[0087]
编码模块用于对特征变量的取值/类别进行编码得到编码值,还用于对编码值进行排序得到个体数组;
[0088]
种群建立模块用于进行多次随机不重复抽取所述个体数组内的编码值的区间后形成多个随机个体,还用于将所有所述随机个体建立成种群;
[0089]
解码模块用于对每个随机个体的区间内的编码值进行解码还原成特征变量的取值/类别;
[0090]
最优个体筛选模块用于结合区间内的编码值对应的特征变量和对应的好坏标签,计算各个区间的woe值,还用于根据同一个随机个体对应的所有区间的woe值得到该随机个体的iv值,还用于筛选出当前种群中所有随机个体中iv值最大的个体作为最优个体;
[0091]
交叉交换变异模块用于通过对种群的随机个体的区间内的编码值对应特征变量的取值/类别,执行交叉交换算法和变异算法后得到下一代种群;
[0092]
迭代模块用于重复执行种群建立模块、解码模块、最优个体筛选模块和交叉交换变异模块,直到iv值不再提高或者迭代次数达到设定值时,当前种群的最优个体为区间划分的最优解。
[0093]
优选的,所述编码模块用于当所述特征变量为定量特征变量时,对所述特征变量所有的取值去除重复的取值后升序排列得到定量数组,还用于取所述定量数组的元素的排列序号作为编码值;
[0094]
用于当所述特征变量为定性特征变量或者分类特征变量时,对所述特征变量的每个类别的好人占比作升序排列得到定性数组,还用于取所述定性数组的排列序号作为编码值。
[0095]
值得说明的是,所述最优个体筛选模块用于通过以下公式计算所述woe值:
[0096][0097]
还用于通过以下公式计算所述iv值:
[0098][0099]
其中,i为i第个区间;woe
i
为同一个随机个体的第i个区间的woe值;b
i
是第i个区间的坏人率,为第i个区间的坏人数
÷
第i个区间的人数;g
i
是第i个区间的好人率,为第i个区间的好人数
÷
第i个区间的人数;b
total
是同一个随机个体所有区间的坏人率,为随机个体的坏人数
÷
随机个体的人数;g
total
是同一个随机个体所有区间的好人率,为随机个体的好人数
÷
随机个体的人数;iv为所述iv值;n为所述随机个体的区间的总数。
[0100]
具体地,所述交叉交换变异模块用于通过所述交叉交换算法对所有所述随机个体的区间内的编码值对应特征变量的取值/类别进行随机选择,并进行位置的随机交叉交换,其中参加交叉交换的特征变量的取值/类别的数量=种群的随机个体数
×
(区间数

1)
×

叉交换率;
[0101]
还用于通过所述变异算法对所有所述随机个体的区间内的编码值对应特征变量的取值/类别进行随机选择并进行变异,其中参加变异的特征变量的取值/类别的数量=种群的随机个体数
×
(区间数

1)
×
变异率;其中,所述变异算法为均匀分布随机整数变异算子、正态乘数变异算子和正态加数变异算子中的一种或多种的组合。
[0102]
可选地,还包括精英筛选模块;
[0103]
所述精英筛选模块用于选择iv值高的多个随机个体作为胜出者个体并淘汰其他随机个体;还用于复制所述胜出者个体,并将淘汰的其他随机个体恢复;还用于在所述胜出者个体中选择iv值最高的随机个体作为精英个体,所述精英个体不参与所述交叉交换变异模块的执行。
[0104]
在本说明书的描述中,参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合所述实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
[0105]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
[0106]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理模块的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
[0107]
此外,在本发明的各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0108]
尽管上面已经示出和描述了本发明的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施实施进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1