基于最大化IV的数据分组方法、装置、储存介质及设备与流程

文档序号:15932538发布日期:2018-11-14 01:52阅读:374来源:国知局

本发明涉及数据分析技术领域,特别涉及一种基于最大化iv的数据分组方法、装置、储存介质及设备。

背景技术

信用评分卡模型在信用风险评估以及金融风险控制领域具有比较广泛的应用,其中包括:数据清洗、分组、筛选并重新分组、相关性分析、建模及输出评价模型的图表。在分组过程中通常用信息价值(informationvalue,iv)的指标来反映某一变量对逾期率(或者违约率)的影响有多大,iv值越大,说明对逾期率(或者违约率)的影响越大,iv值越大的变量即为建模越需要的变量,通过按某一变量对样本数据进行分组找到越大的iv,这样建立的评分卡模型对客户的信用预测越准确。通常iv值是根据证据权重(weightofevidence,woe)计算得到。

目前,按某一变量对样本数据进行分组的方式通常为等宽(划分间距一样,比如年龄变量,每5岁划分为一组)或等高(每组样本数相等)的方式,这样分组后计算的iv并不是最大化的iv,利用这样的分组方式建立的评分卡模型的预测准确度不高,从而导致对客户的信用判断不准确。



技术实现要素:

本发明提出一种基于最大化iv的数据分组方法、装置、储存介质及设备,解决现有技术中对变量分组无法使得iv最大化的问题。

本发明的一种基于最大化信息价值iv的数据分组方法,包括:

对于若干个样本数据按指定变量进行多次分组,分组数的范围由两组到m组,m>2,m最大为所述变量能取值的个数,每组样本数大于等于2,对每次分组计算该次分组对应的iv值;

选择最大iv值,且对该变量选择最大iv值对应的分组作为信用评分卡建模的分组。

其中,所述对于若干个样本数据按指定变量进行多次分组,分组数的范围由两组到m组,m>2,m最大为所述变量能取值的个数,每组样本数大于等于2,m为整数,对每次分组计算该次分组对应的iv值,包括:

将样本数据从分两组开始直到分成m组,且保证每组至少m个样本,m>2,m为整数;

对于分成i组的情况,2≤i≤m,包含j种分组方式,对于每一种分组方式计算对应的iv值ivij,i和j为整数。

其中,对于每一种分组方式计算对应的iv值ivij之后,所述方法还包括:

选出分成i组情况下的最大iv值ivi0,且选择最大iv值的步骤具体包括:比较各个ivi0,从各个ivi0中选择出最大iv值。

其中,对于若干个样本数据按指定变量进行多次分组之前,所述方法还包括:

在变量值为连续性变量的情况下,若变量值两端的两段区域内的样本数小于m,则不对该区域内的样本数据进行分组。

其中,对于若干个样本数据按指定变量进行多次分组之前,所述方法还包括:

在变量值为连续性变量的情况下,将所述变量值划分成若干连续的区段,每一区段样本数不少于m个,分组时只对变量值区段分段点的变量值对应的样本数据进行分组。

其中,若存在某组样本数据中全是逾期次数小于预定逾期次数的数据,则将该组中至少一个样本数据设为逾期次数大于等于所述预定预期次数的数据,若存在某组样本数据中全是逾期次数大于等于所述预定预期次数的数据,则将该组中至少一个样本数据设为逾期次数小于预定逾期次数的数据。

其中,对于所述变量的变量值缺失的样本数据,将该样本数据缺失的变量值设为绝对值大于默认值的负数值。

本发明还提供了一种基于最大化iv的数据分组装置,包括用于执行上述任一项所述的方法的单元。

本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述任一项所述的方法。

本发明还提供了一种基于最大化iv的数据分组设备,包括:处理器、网络接口和存储器,所述处理器、所述网络接口和所述存储器相互连接,其中,所述网络接口受所述处理器的控制用于收发消息,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述任一项所述的方法。

本发明的方法中,对样本按照变量进行多次分组,计算每次分组对应的iv值,然后选择最大的iv值对应的分组方式,将该变量最大iv值对应的分组方式用于信用评分卡建模,提高了信用评分卡模型的预测准确度,以对客户的信用进行准确地评分。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的一种基于最大化iv的数据分组方法流程图;

图2为本发明的一种基于最大化iv的数据分组装置结构图;

图3为本发明的一种基于最大化iv的数据分组设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例基于最大化iv的数据分组方法如图1所示,包括:

步骤s1,对于若干个样本数据按指定变量进行多次分组,分组数的范围由两组到m组,m>2,m最大为所述变量能取值的个数,每组样本数大于等于2,m为整数,对每次分组计算该次分组对应的iv值为iv0,iv0为在该次分组中每个组的iv值之和。其中,变量可以是:年龄、学历、收入水平、资产总数和每个月通话分钟数等。

步骤s2,选择最大iv值,且对该变量选择最大iv值对应的分组方式作为信用评分卡建模的分组。

本实施例中,对样本按照变量进行多次分组,计算每次分组对应的iv值,然后选择选择最大iv值对应的分组方式,并将该变量最大iv值对应的分组方式用于信用评分卡建模,提高了信用评分卡模型的预测准确度,从而对客户的信用进行准确地评分。

步骤s1具体包括:

将样本数据从分两组开始直到分成m组,且保证每组至少m个样本,m>2,m为整数。

对于分成i组的情况,2≤i≤m,包含j种分组方式,对于每一种分组方式计算对应的iv值ivij,即ivij表示在分成i组情况下第j种分组方式对应的iv值(其值等于每组的iv值之和),i和j为整数。例如:年龄变量,分成两组可以是年龄在18~35之间的人群为一组,年龄在36~50之间的人群为另一组,当然还可以是其他分成两组的方式,只要保证每一组不少于m个样本(人)即可。

设置每组最少样本数为m,m可取100~500,m越大,可分的最大组数越小,最终分成的组数m越小,在最大化iv的同时减少计算量。

对于每一种分组方式计算对应的iv值ivij之后还包括:选出分成i组情况下的最大iv值ivi0,即多个ivij中的最大值(可称为局部最大iv值),且选择最大iv值的步骤具体包括:比较各个ivi0,从各个ivi0中选择出最大iv值(可称为全局最大iv值)。分步计算最大iv的方式可以保证多组并行计算局部最大iv值,提高计算速度,尤其是在海量数量的情况下,提高运算速率,缩短建模周期。

本实施例中,步骤s1之前还包括:在变量值为连续性变量的情况下,若变量值两端的两段区域内的样本数小于m,则不对该区域内的样本数据进行分组。这样可以减少计算量,尤其是变量值较多的情况,例如:变量为客户每个月的通话分钟数,变量值从0~6000分钟,每个分钟数都有不同数量的客户数(即样本数)。若0~300分钟内以及5900~6000分钟内的客户数小于m,则在分组时只考虑300~5900分钟内的客户,从而减少计算量。

本实施例中,步骤s1之前还包括:在变量值为连续性变量的情况下,将变量值划分成若干连续的区段,每一区段样本数不少于m个,分组时只对变量值区段分段点的变量值对应的样本数据进行分组。例如:变量为客户每个月的通话分钟数,变量值从0~6000分钟,每个分钟数都有不同数量的客户数(即样本数)。理论上来说若每个分钟数的客户数都超过预定最少人数m的话,分组方式的数量非常庞大,导致计算量非常大,因此,在分组前先将变量值划分成若干连续的区段,例如分成100个区段,不考虑最大最小值的情况下有99个分段点,相对于变量值由原来的6001个变成个99个变量值,对这99个变量值再将样本数按上述方式分组,大大减小了计算量。

由于一组中的样本全是逾期次数小于预定逾期次数的数据(通常称为好人数据)或全是逾期次数大于等于该预定预期次数(通常称为坏人数据)的数据,则无法计算每组的iv值,因此本实施例中,若存在某组样本数据中全是逾期次数小于预定逾期次数的数据,则将该组中至少一个样本数据设为逾期次数大于等于所述预定预期次数的数据,若存在某组样本数据中全是逾期次数大于等于所述预定预期次数的数据,则将该组中至少一个样本数据设为逾期次数小于预定逾期次数的数据,以便于计算woe值,从而计算iv值。

对于该变量的变量值缺失的样本数据,将该样本数据缺失的变量值设为绝对值大于默认值的负数值,默认值可以为999999,赋予较大的数值避免了该缺失值参与计算时与正常变量值混淆,影响计算结果,从而影响信用评分卡模型的预测准确度。

本发明的实施例还提供了一种基于最大化iv的数据分组装置,包括用于执行上述任一项所述的方法的单元,如图2所示,包括:

分组计算单元1,用于对于若干个样本数据按指定变量进行多次分组,分组数的范围由两组到m组,m>2,m最大为所述变量能取值的个数,每组样本数大于等于2,对每次分组计算该次分组对应的iv值。

iv选择单元2,用于选择最大iv值,且对该变量选择最大iv值对应的分组方式作为评分卡建模的分组。

分组计算单元1包括:

分组单元11,用于将样本数据从分两组开始直到分成m组,且保证每组至少m个样本,m>2。m越大,可分的最大组数越小,最终分成的组数m越小,在最大化iv的同时减少计算量。

计算单元12,用于对于分成i组的情况,2≤i≤m,包含j种分组方式,对于每一种分组方式计算对应的iv值ivij

其中,iv选择单元2可以在一种分组方式计算对应的iv值ivij之后选出分成i组情况下的最大iv值ivi0,最后再比较各个ivi0值,从各个ivi0中选择出最大iv值。分步计算最大iv的方式可以保证多组并行计算局部最大iv值,提高计算速度,尤其是在海量数量的情况下,提高运算速率,缩短建模周期。

该基于最大化iv的数据分组装置还包括:样本数判断单元3,用于在变量值为连续性变量的情况下,判断变量值两端的两段区域内的样本数,若变量值两端的两段区域内的样本数小于m,分组单元11则不对该区域内的样本数据进行分组,从而在计算时减少计算量。

该基于最大化iv的数据分组装置还包括:变量值区段划分单元4,用于在变量值为连续性变量的情况下,将变量值划分成若干连续的区段,每一区段样本数不少于m个。分组单元11在分组时只对变量值区段分段点的变量值对应的样本数据进行分组,在计算时大大减少了计算量。

该基于最大化iv的数据分组装置还包括:组内样本调整单元5,用于若存在某组样本数据中全是逾期次数小于预定逾期次数的数据,则将该组中至少一个样本数据设为逾期次数大于等于所述预定预期次数的数据,若存在某组样本数据中全是逾期次数大于等于所述预定预期次数的数据,则将该组中至少一个样本数据设为逾期次数小于预定逾期次数的数据,以便于计算woe值,从而计算iv值。

该基于最大化iv的数据分组装置还包括:缺失变量值设置单元6,对于所述变量的变量值缺失的样本数据,用于将该样本数据缺失的变量值设为绝对值大于默认值的负数值。默认值可以为999999,赋予较大的数值避免了该缺失值参与计算时与正常变量值混淆,影响计算结果,从而影响信用评分卡模型的预测准确度。

本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述任一项所述的方法。该计算机可读存储介质可以是的计算机本地存储单元,例如:本地硬盘或内存。该计算机可读存储介质也可以是外部存储设备,例如:所述服务器上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,该计算机可读存储介质还可以既包括所述本地存储单元也包括外部存储设备。该计算机可读存储介质用于存储所述计算机程序以及所述服务器所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本发明的实施例还提供了一种基于最大化iv的数据分组设备,如图3所示,包括:处理器7、网络接口8和存储器9,处理器7、网络接口8和存储器9相互连接,具体通过数据总线10连接。其中,网络接口8受处理器7的控制用于收发消息,存储器9用于存储计算机程序以及若干样本数据,计算机程序包括程序指令,若样本数据存储在云端或其他分布式设备上,则通过网络接口8获取云端或其他分布式设备上的样本数据,存储在本地的存储器9中,处理器7用于执行存储器9存储的程序指令。

其中,处理器7被配置用于调用所述程序指令执行:

对于若干个样本数据按指定变量进行多次分组,分组数的范围由两组到m组,m>2,m最大为所述变量能取值的个数,每组样本数大于等于2,对每次分组计算该次分组对应的iv值;

选择最大iv值,且对该变量选择最大iv值对应的分组作为评分卡建模的分组。

在分组计算时,处理器7用于具体执行:

将样本数据从分两组开始直到分成m组,且保证每组至少m个样本,m>2;对于分成i组的情况,2≤i≤m,包含j种分组方式,对于每一种分组方式计算对应的iv值ivij

在对于每一种分组方式计算对应的iv值ivij之后,处理器7还用于执行:

选出分成i组情况下的最大iv值ivi0,且在选择最大iv值时比较各个ivi0,从各个ivi0中选择出最大iv值。

对于若干个样本数据按指定变量进行多次分组之前,处理器7还用于执行:在变量值为连续性变量的情况下,若变量值两端的两段区域内的样本数小于m,则不对该区域内的样本数据进行分组。

对于若干个样本数据按指定变量进行多次分组之前,处理器7还用于执行:在变量值为连续性变量的情况下,将所述变量值划分成若干连续的区段,每一区段样本数不少于m个,分组时只对变量值区段分段点的变量值对应的样本数据进行分组。

若存在某组样本数据中全是逾期次数小于预定逾期次数的数据,处理器7则执行将该组中至少一个样本数据设为逾期次数大于等于所述预定预期次数的数据的步骤,若存在某组样本数据中全是逾期次数大于等于所述预定预期次数的数据,处理器7则执行将该组中至少一个样本数据设为逾期次数小于预定逾期次数的数据的步骤。

对于所述变量的变量值缺失的样本数据,处理器7还用于执行:将该样本数据缺失的变量值设为绝对值大于默认值的负数值。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1