基于五折交叉验证的评分卡建模方法及装置与流程

文档序号:31673617发布日期:2022-09-28 01:31阅读:537来源:国知局
基于五折交叉验证的评分卡建模方法及装置与流程

1.本技术涉及人工智能领域,具体而言,涉及一种基于五折交叉验证的评分卡建模方法、装置、计算机设备和存储介质。


背景技术:

2.我国消费金融行业处于发展初期,仍有较大增长空间。
3.对于大数据风控要求,传统金融风控进行风险控制所使用的数据维度,及风险把握不足。目前,金融大数据虽然使用更多的第三方数据,极大丰富了信用评估的可用数据维度,使得全方位有效的进行信用评估成为可能,但同时也对评分卡模型的特征处理性能提出了更高的要求。金融信贷机构特征集合普遍具有数量多、纬度高的特点,但评分卡应关注的并不是数据规模本身,而是这些海量数据中有价值的特征,按照传统的方式人工进行特征筛选已不能很好的适用当前的信贷场景,不能充分挖掘海量第三方数据中的深层特征。虽然目前已经有很多公司已经开始尝试使用机器学习模型(例如gbdt、adaboost、xgboost、 lightgbm、catboost等)替代评分卡模型,但是训练集验证集的划分依然采用评分卡的根据标签随机划分成两份,这样容易使机器学习模型出现过拟合的情况。一般基于第三方数据开发的评分卡模型只是将原始输入数据的维度增多了而已,没有做其他的处理,其实不同第三方数据对于建模样本的查全率差异较大,采用传统的五折交叉验证可能会导致不同折之间的数据差距大,最终导致输出的评分排序性较差。
4.针对上述相关技术中,传统的评分卡模型不能很好地适用于当前的信贷场景的问题,目前尚未提出有效的解决方案。


技术实现要素:

5.本发明实施例提供一种基于五折交叉验证的评分卡建模方法、装置、计算机设备和存储介质,用以解决相关技术中传统的评分卡模型不能很好地适用于当前的信贷场景的问题。
6.为了实现上述目的,本发明实施例的第一方面,提供一种基于五折交叉验证的评分卡建模方法,包括:
7.定义目标变量,将逾期天数超过预设天数的用户定义为负样本,将逾期天数未超过预设天数的用户定义为正样本;
8.获取原始变量数据,所述原始变量数据包括金融机构数据和第三方数据,形成样本数据集;
9.对所述原始变量数据进行分箱处理,计算每箱变量的证据权重值、以及变量对应的信息值;采用皮尔逊相关系数计算变量之间的相关性,对共线性的变量进行筛选;
10.基于所述原始变量数据和所述目标变量构建五折交叉验证标签;
11.利用所述五折交叉验证标签将样本数据集随机划分成五份,将五折数据分别采用lightgbm算法进行训练,得到评分卡模型。
12.可选地,在第一方面的一种可能实现方式中,对所述原始变量数据进行分箱处理之前,还包括:
13.对所述原始变量数据进行数据清洗处理,其中数据清洗包括缺失值处理和异常值处理。
14.可选地,在第一方面的一种可能实现方式中,基于所述原始变量数据和所述目标变量构建五折交叉验证标签,包括:
15.对第三方数据和金融机构数据中的每组特征值分别进行缺失值打标,其中所述第三方数据或者金融机构数据中至少具有一组数据源,每组数据源至少具有一组特征值;
16.将所有缺失值标签和定义的目标变量相结合,组成一个多维标签作为五折交叉验证标签。
17.可选地,在第一方面的一种可能实现方式中,所述方法还包括:
18.对模型进行调参处理;
19.根据模型的评估指标来评估模型的区分能力、预测能力和稳定性,并生成评估报告。
20.可选地,在第一方面的一种可能实现方式中,对所述原始变量数据进行分箱处理,计算每箱变量的证据权重值、以及变量对应的信息值;采用皮尔逊相关系数计算变量之间的相关性,对共线性的变量进行筛选,包括:
21.所述计算每箱变量的证据权重值,证据权重值的计算式如下:
[0022][0023]
其中,woei表示第i个分箱的证据权重值,pi,good、pi,bad分别表示第i个分箱中正、负样本数与样本总数的比例;
[0024]
所述计算变量对应的信息值,信息值的计算式如下:
[0025][0026]
其中,n表示变量分箱的数量,woei表示第i个分箱的证据权重值, pi,good、pi,bad分别表示第i个分箱中正、负样本数与样本总数的比例;
[0027]
所述皮尔逊相关系数计算变量之间的相关性,计算式如下:
[0028][0029]
其中,r表示变量x、y的皮尔逊相关系数,xk,k=1,2,

n表示第k个样本中变量x的取值,表示变量x的均值,yk,k=1,2,

n表示第k个样本中变量y 的取值,表示变量y的均值,n为样本总数。
[0030]
本发明实施例的第二方面,提供一种基于五折交叉验证的评分卡建模装置,包括:
[0031]
目标变量定义模块,用于定义目标变量,将逾期天数超过预设天数的用户定义为
负样本,将逾期天数未超过预设天数的用户定义为正样本;
[0032]
原始变量获取模块,用于获取原始变量数据,所述原始变量数据包括金融机构数据和第三方数据,形成样本数据集;
[0033]
变量筛选模块,用于对所述原始变量数据进行分箱处理,计算每箱变量的证据权重值、以及变量对应的信息值;采用皮尔逊相关系数计算变量之间的相关性,对共线性的变量进行筛选;
[0034]
验证标签构建模块,用于基于所述原始变量数据和所述目标变量构建五折交叉验证标签;
[0035]
模型训练模块,用于利用所述五折交叉验证标签将样本数据集随机划分成五份,将五折数据分别采用lightgbm算法进行训练,得到评分卡模型。
[0036]
可选地,在第二方面的一种可能实现方式中,所述装置还包括:
[0037]
数据清洗模块,用于对所述原始变量数据进行数据清洗处理,其中数据清洗包括缺失值处理和异常值处理。
[0038]
可选地,在第二方面的一种可能实现方式中,所述验证标签构建模块,还包括:
[0039]
缺失值打标单元,用于对第三方数据和金融机构数据中的每组特征值分别进行缺失值打标,其中所述第三方数据或者金融机构数据中至少具有一组数据源,每组数据源至少具有一组特征值;
[0040]
验证标签生成单元,用于将所有缺失值标签和定义的目标变量相结合,组成一个多维标签作为五折交叉验证标签。
[0041]
本发明实施例的第三方面,提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。
[0042]
本发明实施例的第四方面,提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述方法的步骤。
[0043]
本发明提供的基于五折交叉验证的评分卡建模方法、装置、计算机设备和存储介质,通过定义目标变量,将逾期天数超过预设天数的用户定义为负样本,将逾期天数未超过预设天数的用户定义为正样本;获取原始变量数据,所述原始变量数据包括金融机构数据和第三方数据,形成样本数据集;对所述原始变量数据进行分箱处理,计算每箱变量的证据权重值、以及变量对应的信息值;采用皮尔逊相关系数计算变量之间的相关性,对共线性的变量进行筛选;基于所述原始变量数据和所述目标变量构建五折交叉验证标签;利用所述五折交叉验证标签将样本数据集随机划分成五份,将五折数据分别采用lightgbm算法进行训练,得到评分卡模型。本发明能够很好地适用于当前的信贷场景中,充分挖掘海量第三方数据中的深层特征,以提升评分卡对于不同用户的区分效果。
附图说明
[0044]
图1为本发明实施例提供的基于五折交叉验证的评分卡建模方法的流程图;
[0045]
图2为本发明实施例提供的基于五折交叉验证的评分卡建模装置的结构图。
具体实施方式
[0046]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0047]
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
[0048]
应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0049]
应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0050]
应当理解,在本发明中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含a、b和c”、“包含a、b、c”是指a、 b、c三者都包含,“包含a、b或c”是指包含a、b、c三者之一,“包含a、b 和/或c”是指包含a、b、c三者中任1个或任2个或3个。
[0051]
应当理解,在本发明中,“与a对应的b”、“与a相对应的b”、“a与 b相对应”或者“b与a相对应”,表示b与a相关联,根据a可以确定b。根据a确定b并不意味着仅仅根据a确定b,还可以根据a和/或其他信息确定b。a 与b的匹配,是a与b的相似度大于或等于预设的阈值。
[0052]
取决于语境,如在此所使用的“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。
[0053]
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
[0054]
本发明提供一种基于五折交叉验证的评分卡建模方法,如图1所示其流程图,包括:
[0055]
步骤s110、定义目标变量。
[0056]
在本步骤中,需要预先设置目标变量,即根据vintage分析,观察各月份平均逾期的走势,确定表现窗口的时间跨度,将表现期内逾期天数超过预设天数(例如90天)的用户定义为负样本(或者定义为“坏用户”),将表现期内逾期天数未超过预设天数(例如90天)的用户定义为正样本(或者定义为“好用户”)。
[0057]
步骤s120、获取原始变量数据,形成样本数据集。
[0058]
在步骤s120中,该原始变量数据主要包括两方面,其一是金融机构数据(包括但不限于人行征信、银行流水、平台申请的个人基本属性信息,其中个人基本属性信息主要包括姓名、身份证号和手机号);其二是第三方数据(包括但不限于多头借贷行为信息、各大网络
平台购物信息、第三方支付信息和有关反欺诈行为的信息)。在获取过程中,根据数据的保密程度采取不同的获取方式进行数据传输,部分数据(保密性较低或者不保密性)可根据网络爬虫技术在网上进行数据爬虫,或者部分数据(保密性较高)可通过指定金融机构或者第三方的特定数据接口进行数据传输。
[0059]
步骤s130、对所述原始变量数据进行分箱处理,计算每箱变量的证据权重值、以及变量对应的信息值;采用皮尔逊相关系数计算变量之间的相关性,对共线性的变量进行筛选。
[0060]
在该步骤中,在分箱处理时需要遵循以下原则:1、取值较少的类别型变量不需要分箱;2.分箱结果需要有序性;3.分箱的平衡性,占比最小的箱数据不低于5%;4.分箱的单调性:在要求严格的情况下,坏样本率与箱呈单调关系;当非单调时,需要与前箱和后箱合并;5.箱内不能全部是“好客户”或“坏客户”。分箱处理过程中,可采取有监督分箱或者无监督分箱,有监督分箱(例如决策树分箱、最优分段分箱等)可以与目标变量结合,最大程度将目标变量的信息反应在特征中;无监督分箱(例如等距分箱、聚类分箱),其优点在于计算简单,缺点在于无法保证其合理性。
[0061]
具体地,在风控评分卡模型中,为了业务解释性,发挥线性判断变量的作用,即当特征变量x越来越大,目标变量y也会越来越大,但实际x与y之间经常存在着非线性关系,此时可经过woe变换,计算每箱变量的证据权重值,证据权重值的计算式如下:
[0062][0063]
其中,woei表示第i个分箱的证据权重值,pi,good、pi,bad分别表示第i个分箱中正、负样本数与样本总数的比例;
[0064]
在计算出分箱的证据权重值woei后,根据其证据权重值woei计算其变量所对应的信息值iv,从而用于评估变量的预测能力,一般来说信息值iv越高,预测能力越强,,iv《0.02的为无效特征;0.02《=iv《0.1的为弱效果特征; 0.1《=iv《=0.5为有效特征;iv》0.5为强特征。信息值iv的计算式如下:
[0065][0066]
其中,n表示变量分箱的数量,woei表示第i个分箱的证据权重值,pi,good、pi,bad分别表示第i个分箱中正、负样本数与样本总数的比例;
[0067]
采用皮尔逊相关系数计算变量之间的相关性,对共线性的变量进行筛选,对皮尔逊相关系数大于0.7的系数,将其中信息值较小的变量删除。
[0068]
计算式如下:
[0069][0070]
其中,r表示变量x、y的皮尔逊相关系数,xk,k=1,2,

n表示第k个样本中变量x的
取值,表示变量x的均值,yk,k=1,2,

n表示第k个样本中变量y 的取值,表示变量y的均值,n为样本总数。
[0071]
步骤s140、基于所述原始变量数据和所述目标变量构建五折交叉验证标签。
[0072]
在步骤s140中,主要包括如下两个步骤:
[0073]
步骤1:先对第三方数据和金融机构数据中的每组特征值分别进行缺失值打标,其中所述第三方数据或者金融机构数据中至少具有一组数据源,每组数据源至少具有一组特征值。
[0074]
对步骤1进行举例说明:假设建模涉及的三方数据共有n家,分别表示为 t1,t2,...,tn,...,tn,对于第三方数据源tn,该数据源共提供了mn维特征,分别表示为tn1,tn2,...,tnmn,...,tnmn,上述mn维特征分别进行缺失值打标,即对于特征tnmn中缺失的样本打标为1,否则打标为0,第n家三方数据源的第m维特征的缺失值标签表示为ynmn。同理对所有金融机构数据源下是每个特征都进行缺失值打标。
[0075]
步骤2:
[0076]
然后将所有缺失值标签和定义的目标变量相结合,组成一个多维标签作为五折交叉验证标签。该一条样本的标签如下所示:
[0077]
(y11,y12,...,y1m1;
[0078]
y21,y22,...,y2m2;
[0079]
......,
[0080]
y11,y12,...,ynmn,
[0081]
y)。
[0082]
步骤s150、利用所述五折交叉验证标签将样本数据集随机划分成五份,将五折数据分别采用lightgbm算法进行训练,得到评分卡模型。
[0083]
在步骤s150中,基于上述步骤s140的五折交叉验证标签对样本随机划分成五份,并且确保每折中所有标签的占比和整体样本保持一致。然后将五折数据分别采用lightgbm算法进行训练,并计算五折预测结果的均值作为最后的输出,用测试集来验证训练后模型的评估指标。
[0084]
在一个实施例中,对所述原始变量数据进行分箱处理之前,还包括:对所述原始变量数据进行数据清洗处理,其中数据清洗包括缺失值处理和异常值处理。
[0085]
在该步骤中,在获取原始变量数据(金融机构数据和第三方数据)后,对金融机构自身的字段和第三方数据字段进行分类,了解数据的大体情况,包括每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值以及分布情况;进而对脏数据清洗。其中,需要根据观察期和表现期的定义从数据池中取数,进行前期的数据清洗和稳定性验证工作。数据清洗包括用户唯一性检查、缺失值检查、异常值检查等。稳定性验证主要考察变量在时间序列上的稳定性,衡量的指标有psi、平均值/方差、iv等。
[0086]
在一个实施例中,所述方法还包括:对模型进行调参处理,根据模型的评估指标评估模型的区分能力、预测能力和稳定性,并生成评估报告,与其他算法模型对比,得出模型是否可以使用的结论。
[0087]
在一个实施例中,所述方法,包括:选择评分卡模型部署的系统平台,将评分卡模型部署到系统平台上,监控模型的信息价值iv、均值、psi、auc,并根据监控定期更新模型。
specific integrated circuits,asic)中。另外,该asic可以位于用户设备中。当然,处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(rom)、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0101]
本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。
[0102]
在上述终端或者服务器的实施例中,应理解,处理器可以是中央处理单元(英文:central processing unit,cpu),还可以是其他通用处理器、数字信号处理器 (英文:digital signal processor,dsp)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
[0103]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1