用于信贷风险评估的数据处理方法、装置、设备及介质

文档序号:32311460发布日期:2022-11-23 11:46阅读:60来源:国知局
用于信贷风险评估的数据处理方法、装置、设备及介质

1.本发明涉及数据处理技术领域,尤其涉及一种用于信贷风险评估的数据处理方法、装置、电子设备和存储介质。


背景技术:

2.随着互联网金融的兴起,小额信贷的普及与渗透,国内信贷交易量大幅上涨。不同金融机构在该风口获得利润的同时,也带来了一定的信贷风险。信贷风险会带来潜在的巨额损失,因此,客观科学的评估信贷风险平衡贷款营收与风险至关重要。然而,传统银行对客户信贷风险的评估方式往往采用专家分析法,信用评级法等此类主观方法,根据贷款者信息进行主观判断是否提供贷款,用该方法处理大额度贷款等低频业务存在一定的适用性,但随着市场经济的快速发展与互联网技术的发展,对于越来越多的信贷需求,传统的人工审核方式耗时耗力。
3.目前,已有学者对信贷风险因素识别与评估方法进行了探索,通过建立财务指标、融合金融理论和数学工具对其进行分析,并取得了一定的成果。例如,构建了基础年龄、婚姻状况、受教育程度、个人月收入、职务、贷款年限、贷款金额、还款方式、担保方式九个指标上的logistics回归模型,通过指标的权值对个人信贷风险进行识别。feng xue引入了粗糙集理论属性处理信贷风险预测任务中,通过将过去的财务业绩数据反馈到粗糙集方法和神经网络中来预测五类风险等级,使用粗糙集方法在不损失信息的情况下对属性进行约简,然后将约简后的信息用于制定分类规则和训练elman神经网络。
4.上述研究为识别评估信贷风险因素问题提供了较好的思路与支撑,但现有方法仍旧存在以下三个问题:
5.1:许多研究引入了粗糙集理论的属性约简方法对风险因素进行降维,现有方法一般仅能处理静态数据,当关键风险因素随时间和环境动态变化,静态算法需要使用所有历史数据和新数据,计算效率低下,造成响应速度缓慢;
6.2:现有研究中基于粗糙集理论的降维方法一般只能获得一组固定指标对风险进行评估,缺乏足够灵活性,当评估数据不实或缺失,可能使结果具有较大偏差,导致后续更高的信贷风险;
7.3:现实场景中,评估信贷风险数据是典型的大规模高维数据,识别关键风险指标,有助于简化信贷风险评估过程,现有方法计算的效率极其低下。


技术实现要素:

8.基于此,本发明提出了一种用于信贷风险评估的数据处理方法、装置、电子设备和存储介质,用以提高信贷风险评估的准确性和计算效率。
9.本发明提出一种用于信贷风险评估的数据处理方法,包括:
10.获取原始数据,基于所述原始数据确定信用评级数据集u、信贷风险因素属性集c和决策属性集d,并确定评级决策表dt=(u,c∪d);
11.将所述信用评级数据集u划分为t个评级数据子集uk;其中,k∈{1,2,3,..,t};
12.分别计算各个所述评级数据子集uk的所有信贷记录样本在所有信贷风险因素c下的全局等价类,获取与所述信用评级数据集u对应的全局等价类集合
13.基于所述全局等价类集合融合嵌套等价类方法对所述评级决策表dt中的信贷风险因素属性集c进行属性约简操作,以得到用于对用户进行信贷风险评估的约简决策表。
14.进一步地,所述获取原始数据,基于所述原始数据确定信用评级数据集u、信贷风险因素属性集c和决策属性集d,并确定评级决策表dt=(u,c∪d),包括:
15.获取原始数据,基于所述原始数据确定用户信用评级决策系统;其中,所述用户信用评级决策系统包括信用评级数据集u、信贷风险因素属性集c和决策属性集d;
16.通过预设的离散算法或预设的经验方法将所述信贷风险因素属性集c进行离散化处理,并基于所述用户信用评级决策系统确定评级决策表dt=(u,c∪d)。
17.进一步地,所述分别计算各个所述评级数据子集uk的所有信贷记录样本在所有信贷风险因素c下的全局等价类,获取得到与所述信用评级数据集u对应的全局等价类集合包括:
18.建立所述信用评级数据集u的全局等价类集合
19.通过等价关系对各个所述评级数据子集uk进行论域划分,并分别对各个所述评级数据子集uk中的信贷记录样本在所有信贷风险因素c下的知识进行抽取,将知识抽取后形成的所有新论域作为与所述信用评级数据集u对应的全局等价类集合
20.进一步地,所述基于所述全局等价类集合对所述评级决策表dt中的信贷风险因素属性集c进行属性约简操作,以得到用于对用户进行信贷风险评估的约简决策表,包括:
21.当确定当前约简操作方式为通过启发式算法求解单个约简的方式时,所述属性约简操作包括:
22.初始化约简red,基于嵌套等价类方法计算所述信贷风险因素属性集c中每一属性相对于决策属性集d的属性重要度增益;
23.根据所述属性重要度增益将满足预设条件的属性进行添加,获取得到与所述信贷风险因素属性集c对应的约简red。
24.进一步地,所述基于所述全局等价类集合融合嵌套等价类方法对所述评级决策表dt中的信贷风险因素属性集c进行属性约简操作,以得到用于对用户进行信贷风险评估的约简决策表,包括:
25.当确定当前约简操作方式为基于群智能算法求解多个约简并从中进行筛选作为最终约简集合时,所述属性约简操作包括:
26.基于预设的群智能算法生成多个候选解;
27.基于预设的进化算法分别对所述多个候选解计算适应度并进行演化以获得多个候选约简解;
28.基于属性的知识粒度计算预设目标函数的取值,并根据取值对所述多个候选约简解进行筛选以获得候选约简集合reds;
29.在当前的评级数据子集uk中对所述候选约简集合reds的元素分别作为分类属性输入分类模型中进行分类,并基于分类效果和分类属性获取难易程度对所述候选约简集合
reds的元素进行筛选,获取得到与所述信贷风险因素属性集c对应的约简集合。
30.进一步地,所述基于所述全局等价类集合uke融合嵌套等价类方法对所述评级决策表dt中的信贷风险因素属性集c进行属性约简操作,以得到用于对用户进行信贷风险评估的约简决策表,包括:
31.对上一轮的约简red,计算当前回合的全局等价类集合在当前约简回合上的嵌套等价类集合,将当前回合的嵌套等价类集合与上一轮的嵌套等价类集合进行合并,并判断所述嵌套等价类集合是否存在目标类型的嵌套等价类;
32.若是,则继续进行约简计算;
33.若否,则将上一轮的约简集合作为当前回合的约简。
34.进一步地,所述信贷风险因素属性集c的属性包括收入、工龄、教育和负债率中的至少一种。
35.本发明还提供一种用于信贷风险评估的数据处理装置,包括:
36.数据获取模块,用于获取原始数据,基于所述原始数据确定信用评级数据集u、信贷风险因素属性集c和决策属性集d,并确定评级决策表dt=(u,c∪d);
37.数据划分模块,用于将所述信用评级数据集u划分为t个评级数据子集uk;其中,k∈{1,2,3,...,t};
38.等价计算模块,用于分别计算各个所述评级数据子集uk的所有信贷记录样本在所有信贷风险因素c下的全局等价类,获取得到与所述信用评级数据集u对应的全局等价类集合
39.属性约简模块,用于基于所述全局等价类集合融合嵌套等价类方法对所述评级决策表dt中的信贷风险因素属性集c进行属性约简操作,以得到用于对用户进行信贷风险评估的约简决策表。
40.本发明还提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述用于信贷风险评估的数据处理方法。
41.本发明还提出一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现任一项所述用于信贷风险评估的数据处理方法。
42.采用本发明实施例,具有如下有益效果:
43.1、通过在原始数据集中过滤掉无用样本,通过缩减的论域获得相同的约简,减少了不必要的存储空间与计算资源,提高了效率,适用于大规模真实数据下的信贷风险因素识别任务;
44.2、通过基于进化算法的粗糙集约简算法求解多个风险因素指标集合,提供更多选择供进行信用评估,缓解了由于数据缺失或失真造成的影响;
45.3、通过增量式依赖计算策略用于处理新增的动态数据,在原有约简的基础上在新数据集上继续求解新的约简,减少了重新计算的成本能够以较小的成本动态更新约简从而动态进行信贷风险因素识别。
附图说明
46.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现
有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
47.图1是本发明实施例提供的用于信贷风险评估的数据处理方法的流程示意图;
48.图2是本发明实施例提供的用于信贷风险评估的数据处理装置的结构示意图;
49.图3是本发明实施例提供的电子设备的结构示意图。
具体实施方式
50.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
51.需要说明的是,鉴于背景技术中提出的问题,为弥补现有研究的不足,本发明提出了一种基于粗糙集增量特征选择方法用于处理顺序到达的新增数据或划分为多组子集的大型数据集,进而动态更新信贷风险因素以提高在大规模数据集下的计算效率。在本发明方法中,提出了嵌套等价类,对信贷指标形成的决策系统中的知识进行抽取,从而获得压缩计算域,然后基于三种嵌套等价类设计两类算法,其一是求单一约简的启发算法,其二是融合进化算法求解获得多个约简信贷指标集合,最后通过一种面向动态数据的依赖计算策略处理动态数据新增数据更新约简中的信贷风险关键因素。
52.为了弥补现有技术中动态信贷风险因素识别方法的三点不足,本发明实施例分别提出了针对策略:
53.1.在现实场景中,信贷关键风险因素会随时间和环境动态变化,因此本发明设计了一种面向新增动态数据的计算策略用于处理新增动态数据,在保留部分历史数据的条件下更新信贷关键风险因素集合。
54.2.现实中用户提供的信息中许多指标存在着数值缺失以及虚假值的情况,导致识别出的风险因素指标集合不能正常使用,而本发明基于进化算法的粗糙集约简算法求解多个风险因素指标集合,提供更多选择供进行信用评估,使应用场景更加灵活多样,缓解由于数据缺失或失真造成的影响。
55.3.信贷数据通常是大规模真实数据集,传统粗糙集方法难以进行处理,然而大规模数据中存在着许多无用样本,本发明通过设计了一种论域压缩策略,通过在原始数据集中过滤掉无用样本,并在理论上证明可以通过缩减的论域获得相同的约简,减少了不必要的存储空间与计算资源,提高了效率。
56.请参见图1,本发明提供了一种用于信贷风险评估的数据处理方法,可以包括步骤:
57.s1、获取原始数据,基于所述原始数据确定信用评级数据集u、信贷风险因素属性集c和决策属性集d,并确定评级决策表dt=(u,c∪d);进一步地,所述信贷风险因素属性集c的属性包括收入、工龄、教育和负债率中的至少一种。
58.s2、将所述信用评级数据集u划分为t个评级数据子集uk;其中,k∈{1,2,3,...,t};若数据是动态增加,则数据子集按实际总量进行计算,或者将新增数据集划分为小数据
集;
59.s3、计算第一个数据子集u1所有信贷记录样本在所有信贷风险因素c下的全局等价类即用对对c进行划分求得并基于此进行属性约简操作获得约简red1;
60.s4、对下一个数据子集u2先求得全局等价类在red1的基础上计算对red1进行划分求得与合并后继续求解新的约简red2,重复上述步骤s3-s4直至遍历所有数据子集。
61.在本发明实施例中,进一步地,步骤s1可以包括:
62.获取原始数据,基于所述原始数据确定用户信用评级决策系统;其中,所述用户信用评级决策系统包括信用评级数据集u、信贷风险因素属性集c和决策属性集d;
63.通过预设的离散算法或预设的经验方法将所述信贷风险因素属性集c进行离散化处理,并基于所述用户信用评级决策系统确定评级决策表dt=(u,c∪d)。
64.在本发明实施例中,进一步地,步骤s3可以包括:
65.建立所述信用评级数据集u的全局等价类集合
66.通过等价关系对各个所述评级数据子集uk进行论域划分,并分别对各个所述评级数据子集uk中的信贷记录样本在所有信贷风险因素c下的知识进行抽取,将知识抽取后形成的所有新论域作为与所述信用评级数据集u对应的全局等价类集合
67.在本发明实施例中,进一步地,步骤s4可以包括:
68.当确定当前约简操作方式为通过启发式算法求解单个约简的方式时,所述属性约简操作包括:
69.初始化约简red,基于嵌套等价类方法计算所述信贷风险因素属性集c中每一属性相对于决策属性集d的属性重要度增益;
70.根据所述属性重要度增益将满足预设条件的属性进行添加,获取得到与所述信贷风险因素属性集c对应的约简red。
71.在本发明实施例中,进一步地,步骤s4还可以包括:
72.当确定当前约简操作方式为基于群智能算法求解多个约简并从中进行筛选作为最终约简集合时,所述属性约简操作包括:
73.基于预设的群智能算法生成多个候选解;
74.基于预设的进化算法分别对所述多个候选解计算适应度并进行演化以获得多个候选约简解;
75.基于属性的知识粒度计算预设目标函数的取值,并根据取值对所述多个候选约简解进行筛选以获得候选约简集合reds;
76.在当前的评级数据子集uk中对所述候选约简集合reds的元素分别作为分类属性输入分类模型中进行分类,并基于分类效果和分类属性获取难易程度对所述候选约简集合reds的元素进行筛选,获取得到与所述信贷风险因素属性集c对应的约简集合。
77.在本发明实施例中,进一步地,步骤s4还可以包括:
78.对上一轮的约简red,计算当前回合的全局等价类集合在当前约简回合上的嵌套等价类集合,将当前回合的嵌套等价类集合与上一轮的嵌套等价类集合进行合并,并判断所述嵌套等价类集合是否存在目标类型的嵌套等价类;
79.若是,则继续进行约简计算以更新约简;
80.若否,则将上一轮的约简作为当前回合的约简。
81.基于上述方案,为便于更好的理解本发明实施例提供的用于信贷风险评估的数据处理方法,以下进行详细说明:
82.本发明实施例可以基于以下步骤实现:
83.s1,获取原始数据,获取用户信用评级与用户信用相关特征,离散化信用特征,建立信用评级决策表dt=(u,c∪d)。
84.s2,根据实际情况将信用评级信息数据集u划分为t份子集,增量输入算法中;
85.s3对uk的信贷记录样本在所有信贷风险因素c={a1,a2,...,am}下的知识进行抽取,计算获得全局等价类集合遵循粗糙集一致性属性约简的框架,该知识可指导对低维风险指标的计算。
86.s4融合嵌套等价类方法对信贷风险因素进行属性约简操作,包括两种约简操作:1.通过启发式算法求解单个约简;2.基于群智能算法求解多个约简并通过分类模型与具体需求挑选j个解。根据对约简数量与实际应用的要求自行选择,具体操作分别如s5.1和s5.2所示:
87.s5.1对于启发式算法:初始化约简red,渐增添加属性a∈c进入red中,基于嵌套等价类集合计算选择:
[0088][0089]
将其放入约简red,即red∪{a*},直至为空。
[0090]
s5.2基于群智能的算法:首先通过智能算法生成解决方案sf={sf1,sf2,

,sfk},其次对智能算法搜索到的解基于ipdc策略计算适应度并进行演化获得候选约简解reds={red1,red2,....,redn},接着基于知识粒度计算目标函数j(redi)的取值进行筛选进而获得约简集合reds={redi|argmaxj(redi)},最后在当前数据集uk中对所有redi∈reds分别作为分类属性输入分类模型中进行分类,基于分类效果、属性获取难易程度及实际需要挑选单个或多个约简。
[0091]
s6处理下一个动态数据集u
k+1
,计算u
k+1
在c下的全局等价类集合并与进行合并,仅保留0tnec,转s4更新约简。重复上述步骤直至计算完u={u1,u2,

,u
t
}。
[0092]
进一步的,为了更好的实现本发明方法,所述s1,具体为:
[0093]
s1.1确定用户信用评级决策系统,确定每条信用记录的用户信用评级r个信用等级d={d1,d2,...,dr},确定信用评级决策表dt=(u,c∪d),包括收入、工龄、教育、负债率等信贷风险影响因素集合。
[0094]
s1.2通过mdlp算法将信贷风险影响因素进行离散。
[0095]
进一步的,为了更好的实现本发明,所述s3和s6中全局等价类计算方法的具体为:
[0096]
s3.1建立全局等价类哈希s3.1建立全局等价类哈希为对数据集uk中的信贷记录样本在所有信贷风险因素c下的知识进行抽取后形成的新论域,其中uk的正区域等于uk的正区域,在求得约简等价于uk上求得的约简,计算步骤如s3.2:
[0097]
s3.2通过全局等价关系rc划分论域uk,获得全局等价类集合其中全局等价关系rc={(x,y)∈u1×
u1|c(x)=c(y)},c(x)和c(y)分别表示在所有信贷风险因素c下x和y的记录的值。其中每个等价类ei代表一条由多条信贷记录压缩后形成的知识,ei包含了三个属性,分别为:记录数量、决策属性和一致性。
[0098]
对u
ke
在属性a上的划分本发明称为等价嵌套类集合其中每个嵌套等价类ej是对在属性a上进一步压缩形成的知识,包括记录数量(count)、决策属性(dec)、全局等价类集合(e-set)和当嵌套等价类所属的tnec类型(type),tnec分成三种类型的tnec,分别是1-tnec:若e-set中所有全局ei的一致性属性均为true并且决策属性都等于同一个值;-1-tnec:e-set中存在一致性为false的等价类;0-tnec:其它情况。
[0099]
进一步地,为了更好的实现本发明,所述s5.1的具体为:
[0100]
s5.1.1初始化约简red={}
[0101]
s5.1.2选择每一个信贷影响因素指标ai∈c,若非空,red=red∪{ai},对red基于全局等价类u
ke
求解嵌套等价类集合同时移除1-tnec和-1-tnec,即仅保留0-tnec。
[0102]
s5.1.3计算每个属性a∈c在u
ke
上相对于决策属性d的属性重要度增益
[0103]
s5.1.4选择最优的一个风险因素指标,即选择属性重要度增益最高的属性放入约简,即
[0104]
s5.1.6重复s5.1.2—s5.14直至中不存在0-tnec停止循环,获得约简red。
[0105]
进一步地,为了更好的实现本发明,所述s5.2的具体为:
[0106]
s5.2.1基于遗传算法生成多个候选解sf={sf1,sf2,

,sfk}。
[0107]
s5.2.2对于进化算法获得的每个候选解sfi计算对应的适应度,初始化约简red={}。每个候选解计算适应度的具体过程如s5.2.2.1—s5.2.2.4所述:
[0108]
s5.2.2.1从某一个候选解sfi中抽取pconf*len(sfi)个属性,其中pconf∈[0,1],代表每次循环中从现有候选解抽取属性的比例,len(sfi)代表当前候选解的长度。sfi'设置为空。
[0109]
s5.2.2.2sfi'=sfi'∪pconf*len(sfi),基于全局等价类划分求解嵌套等价类集合同时移除1-tnec和-1-tnec,即仅保留0-tnec。
[0110]
s5.2.2.3从当前候选解sfi删除抽取过的属性sfi',即sfi–
sfi'。
[0111]
s5.2.2.4若当前sfi'=sfi或者中不存在属于0-tnec的tnec,则停止当前循环,返回当前适应度即当前1-tnec的等价类集合中的记录数量,否则跳转s5.2.2.2。
[0112]
s5.2.3进化算法根据所有解决方案的适用性对候选解集合sf进行演化。
[0113]
s5.2.4重复s5.2.2—s5.2.3,直至进化算法收敛,以最终演化后的候选解集合sf作为约简解集合reds={red1,red2,....,redn}。
[0114]
s5.2.5在约简解集合中进行选择,减少多余的解,具体步骤如下所示:
[0115]
s 5.2.5.1遍历redi∈reds={red1,red2,....,redn}
[0116]
s 5.2.5.2.对redi计算目标函数j(s)的取值,令属性集合s=redi,目标函数计算公式为:
[0117][0118]
其中aj是一个属性,d是决策属性。
[0119]
代表所有属性aj={a1,a2,
…ak
}相对于决策属性d的知识粒度之和。
[0120]
代表所有属性aj={a1,a2,
…ak
}之间两两属性间的知识粒度之和。
[0121]
gp(b|a)=gp(a)-gp(a∪b)即属性a相对于属性b的粒度。
[0122]
为属性a的知识粒度,v为实例在属性a的取值类别数,|xi|为在属性a上取值等于v的实例数量。
[0123]
按目标函数取值从大到小排序并根据需要选取约简。
[0124]
进一步的,为了更好的实现本发明,在当前数据集uk中对所有redi∈reds分别作为分类属性输入分类模型中进行分类,基于分类效果、属性获取难易程度及实际需要挑选单个或多个约简。
[0125]
进一步的为了更好的实现本发明,所述s6的具体为:
[0126]
s6.1对新数据集u
k+1
计算全局等价类集合哈希
[0127]
s6.2对上一轮约简red(若有多个约简则根据s5.2方法取最优约简)计算在当前约简上的嵌套等价类集合并与上轮嵌套等价类合并,与,如果中不存在0-tnec,则结束运算,当前约简集合等于上一轮约简集合。否则执行s6.3。
[0128]
s6.3转步骤s4,更新当前约简集合,直至计算完u={u1,u2,

,u
t
}。
[0129]
与现有技术相比,本发明实施例具有如下有益效果:
[0130]
1.本发明基于嵌套等价类(tnec)设计一种论域压缩策略。通过在原始数据集中过滤掉无用样本,并在理论上证明可以通过缩减的论域获得相同的约简,减少了不必要的存储空间与计算资源,提高了效率,适用于大规模真实数据下的信贷风险因素识别任务。
[0131]
2.本发明通过基于进化算法的粗糙集约简算法求解多个风险因素指标集合,提供更多选择供进行信用评估,缓解由于数据缺失或失真造成的影响。
[0132]
3.本发明通过一种增量式依赖计算(ipdc)策略用于处理新增的动态数据,在原有约简的基础上在新数据集上继续求解新的约简,减少了重新计算的成本,为不断增加的信
用记录样本的处理提供了一种新思路,能够以较小的成本动态更新约简从而动态进行信贷风险因素识别。
[0133]
以下对本发明方案列举具体实例进行说明:
[0134]
在本发明实施例中,首先定义信息系统。信息系统是一个四元组is=(u,a,v,f),在给定的信息系统中is=(u,a,v,f),u是对象的非空有限集,称为论域,如u={x1,x2,...,xn}是一个具有n条信用记录的实值集;a是特征或属性的非空有限集,使得a:u
→va
对于每个a∈a,其中va是特征a可以采用的一组值。和f:u
×
a=v作为一个函数f(x,a)∈va表示对象x相对于属性a的值,通常用a(x)表示。当系统中存在一个决策属性集d时,信息系统就变成了一个决策表,其格式为dt=(u,a=c∪d,v,f),其中c是一组条件属性,d是决策属性集。假设合,c={a1,a2,...,am}是信用信息系统的指标集,主要包括收入、工龄、教育、负债率等m个指标。d={d1,d2,...,dr}是决策表的r个用户信用等级。设将u的决策划分为u/d={[x]d:x∈u},其中[x]d={y∈u:d(x)=d(y)}是信用记录x的决策类。以下为计算实例:
[0135]
步骤1获取原始数据,获取用户信用评级与用户信用相关特征,离散化信用特征,建立信用评级决策表dt=(u,c∪d)。
[0136]
步骤1.1.确定用户信用评级决策系统,确定每条信用记录的信用用户信用评级r个信用等级d={d1,d2,...,dr},确定信用评级决策表dt=(u,c∪d),包括收入、工龄、教育、负债率等信贷风险影响因素集合。
[0137]
步骤1.2通过离散算法或经验方法将信贷风险影响因素进行离散。
[0138]
步骤2,根据实际情况将信用评级信息数据集u划分为t份子集,增量输入算法中。
[0139]
步骤3计算原始数据中论域u的所有信贷记录样本在所有信贷风险因素c下的全局等价类集合
[0140]
步骤3.1建立信用评级信息决策数据集的全局等价类集合
[0141]
步骤3.2遍历实例xi∈uk,其中索引key=c(x)。执行步骤3.3-3.4,直至遍历完uk。
[0142]
步骤3.3若中不存在当前索引key,创建等价类e,设置等价类数量为1、一致性为一致、决策属性为当前实例的属性,即e.count=1、e.cnst=true、e.dec=d(x)
[0143]
步骤3.4若中存在当前索引key,获取对应的等价类e,其中e.count+=1;如果等价类一致且决策属性不相同,则设置该等价类的一致性为不一致。
[0144]
步骤4融合嵌套等价类方法对信贷风险因素进行属性约简操作,包括两种约简操作:1.通过启发式算法求解单个约简;2.基于群智能算法求解多个约简并通过分类模型与具体需求挑选j个解。根据对约简数量与实际应用的要求自行选择,具体操作分别如步骤5.1和步骤5.2所示:
[0145]
步骤5.1初始化约简red,渐增添加属性a∈c进入red中,基于嵌套等价类集合计算选择:
[0146][0147]
并将其放入约简red,即red∪{a*},直至为空。具体地:
[0148]
步骤5.1.1初始化约简red={}。
[0149]
步骤5.1.2选择每一个信贷影响因素指标a∈c,若非空,red=red∪{a},对red基于全局等价类求解嵌套等价类集合同时移除1-tnec和-1-tnec,即仅保留0-tnec。
[0150]
步骤5.1.3计算每个属性a∈c在上相对于决策属性d的属性重要度增益属性重要度增益计算方式为:
[0151]
中1-tnec里的实例的数量
[0152]
步骤5.1.4选择最优的一个风险因素指标,即选择属性重要度增益最高的属性放入约简red中并在属性候选集c中去除该指标。
[0153]
步骤5.1.5重复步骤5.1.2—步骤5.14直至中不存在0-tnec停止循环,获得约简red。
[0154]
步骤5.2首先通过进化算法生成解决方案sf={sf1,sf2,

,sfk},其次对智能算法搜索到的解基于ipdc策略计算适应度并进行演化获得候选约简解reds={red1,red2,....,redn},接着基于知识粒度计算目标函数j(redi)的取值进行筛选,挑选目标函数值为前m大对应的约简作为约简集合reds,其中m根据具体需求确认,最后在当前数据集uk中对所有redi∈reds分别作为分类属性输入分类模型中进行分类,基于分类效果、属性获取难易程度及实际需要挑选单个或多个约简。
[0155]
步骤5.2.1采用遗传算法进行搜索,其中各参数设置如下所示。群体大小:100;交叉方法:基于适应度排序的染色体,依赖值最高的染色体与依赖值次高的染色体交叉使用90%的基因创建新染色体,适应度最低的5%的种群被新染色体替换;突变:染色体的每个基因以0.1%的概率发生突变;停止条件:连续30次下相同解或最大迭代600次;染色体初始长度:随机选择所有特征的1%。
[0156]
步骤5.2.2在候选属性集合范围内选择属性初始化群体作为候选解集合sf={sf1,sf2,

,sfk}。
[0157]
步骤5.2.3对于遗传算法搜索到的每个解决方案计算适应度,即属性重要度,首先初始化约简red={},具体步骤如下所示:
[0158]
步骤5.2.3.1从某一个候选解sfi中抽取pconf*len(sfi)个属性,其中pconf∈[0,1],代表每次循环中从现有候选解抽取属性的比例,len(sfi)代表当前候选解的长度。sfi'设置为空。
[0159]
步骤5.2.3.2sfi'=sfi'∪pconf*len(sfi),基于全局等价类u
ke
划分求解嵌套等价类集合同时移除1-tnec和-1-tnec,即仅保留0-tnec。
[0160]
步骤5.2.3.3从当前候选解sfi删除抽取过的属性sfi',即sfi–
sfi'。
[0161]
步骤5.2.3.4若当前sfi'=sfi或者中不存在属于0-tnec的tnec,则停止当前循环,返回当前适应度即当前1-tnec的等价类集合中的记录数量,否则跳转步骤5.2.3.2。
[0162]
步骤5.2.4遗传算法根据所有解决方案sf的适应度进行演化。
[0163]
步骤5.2.5重复s3.2—s3.3,直至满足遗传算法停止条件,以当前演化后的候选解sf作为约简解reds={red1,red2,....,redn}。
[0164]
步骤5.2.6选择约简解,具体步骤如下所示:
[0165]
步骤5.2.6.1遍历所有约简解令s=redi。
[0166]
步骤5.2.6.2.计算代表所有属性aj={a1,a2,
…ak
}相对于决策属性d的知识粒度之和。
[0167]
步骤5.2.6.3计算获得所有属性aj={a1,a2,
…ak
}两两属性间的知识粒度之和。
[0168]
步骤5.2.6.4计算j(s):
[0169][0170]
步骤5.2.6.5根据目标函数取值排序并根据需要选取约简,其中目标函数值最大的解保留。
[0171]
步骤6处理下一个动态数据集u
k+1
,计算u
k+1
在c下的全局等价类集合并与进行合并及更新约简。重复上述步骤直至计算完所有u={u1,u2,

,u
t
}
[0172]
步骤6.1对u
k+1
执行步骤3获取所有样本在在所有信贷风险因素c下的全局等价类集合并与进行合并。
[0173]
步骤6.2若中不存在0-tnec,则停止计算,若存在,转步骤4更新约简。重复上述步骤直至计算完u={u1,u2,

,u
t
}。
[0174]
与现有技术相比,本发明实施例具有以下有益效果:
[0175]
本实例借助粗糙集模型处理信用记录数据集,通过属性约简的方式进行特征选择,从各种指标中识别信贷风险因素,保留了原有数据的信息量,避免了一定的信息损失,并缓解了指标的收集压力。然后,通过基于嵌套等价类的加速策略通过在原始数据集中过滤掉无用样本,并通过缩减的论域获得相同的约简,适用于大规模真实数据下的信贷风险因素识别任务。接着,基于增量学习理论,本发明通过一种基于增量分区的依赖计算(ipdc)策略用于处理新增的动态数据,在原有约简的基础上在新数据集上继续求解新的约简,能够以较小的成本动态更新约简从而动态进行信贷风险因素识别。
[0176]
请参见图2,本发明还提出一种用于信贷风险评估的数据处理装置,包括:
[0177]
数据获取模块1,用于获取原始数据,基于所述原始数据确定信用评级数据集u、信贷风险因素属性集c和决策属性集d,并确定评级决策表dt=(u,c∪d);
[0178]
数据划分模块2,用于将所述信用评级数据集u划分为t个评级数据子集uk;其中,k∈{1,2,3,..,t};
[0179]
等价计算模块3,用于分别计算各个所述评级数据子集uk的所有信贷记录样本在所有信贷风险因素c下的全局等价类,获取得到与所述信用评级数据集u对应的全局等价类
集合
[0180]
属性约简模块4,用于基于所述全局等价类集合融合嵌套等价类方法对所述评级决策表dt中的信贷风险因素属性集c进行属性约简操作,以得到用于对用户进行信贷风险评估的约简决策表。
[0181]
进一步地,数据获取模块1具体用于:
[0182]
获取原始数据,基于所述原始数据确定用户信用评级决策系统;其中,所述用户信用评级决策系统包括信用评级数据集u、信贷风险因素属性集c和决策属性集d;
[0183]
通过预设的离散算法或预设的经验方法将所述信贷风险因素属性集c进行离散化处理,并基于所述用户信用评级决策系统确定评级决策表dt=(u,c∪d)。
[0184]
进一步地,等价计算模块3具体用于:
[0185]
建立所述信用评级数据集u的全局等价类集合
[0186]
通过等价关系对各个所述评级数据子集uk进行论域划分,并分别对各个所述评级数据子集uk中的信贷记录样本在所有信贷风险因素c下的知识进行抽取,将知识抽取后形成的所有新论域作为与所述信用评级数据集u对应的全局等价类集合
[0187]
进一步地,属性约简模块4具体用于:
[0188]
当确定当前约简操作方式为通过启发式算法求解单个约简的方式时,所述属性约简操作包括:
[0189]
初始化约简red,基于嵌套等价类方法计算所述信贷风险因素属性集c中每一属性相对于决策属性集d的属性重要度增益;
[0190]
根据所述属性重要度增益将满足预设条件的属性进行添加,获取得到与所述信贷风险因素属性集c对应的约简red。
[0191]
进一步地,属性约简模块4具体用于:
[0192]
当确定当前约简操作方式为基于群智能算法求解多个约简并从中进行筛选作为最终约简集合时,所述属性约简操作包括:
[0193]
基于预设的群智能算法生成多个候选解;
[0194]
基于预设的进化算法分别对所述多个候选解计算适应度并进行演化以获得多个候选约简解;
[0195]
基于属性的知识粒度计算预设目标函数的取值,并根据取值对所述多个候选约简解进行筛选以获得候选约简集合reds;
[0196]
在当前的评级数据子集uk中对所述候选约简集合reds的元素分别作为分类属性输入分类模型中进行分类,并基于分类效果和分类属性获取难易程度对所述候选约简集合reds的元素进行筛选,获取得到与所述信贷风险因素属性集c对应的约简集合。
[0197]
进一步地,属性约简模块4具体用于:
[0198]
对上一轮的约简red,计算当前回合的全局等价类集合在当前约简回合上的嵌套等价类集合,将当前回合的嵌套等价类集合与上一轮的嵌套等价类集合进行合并,并判断所述嵌套等价类集合是否存在目标类型的嵌套等价类;
[0199]
若是,则继续进行约简计算;
[0200]
若否,则将上一轮的约简集合作为当前回合的约简。
[0201]
进一步地,所述信贷风险因素属性集c的属性包括收入、工龄、教育和负债率中的至少一种。
[0202]
图3示出了一个实施例中电子设备的内部结构图。该电子设备具体可以是终端,也可以是服务器。如图3所示,该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该电子设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现所述用于信贷风险评估的数据处理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行所述用于信贷风险评估的数据处理方法。本领域技术人员可以理解,图中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置:
[0203]
在一个实施例中,提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述用于信贷风险评估的数据处理方法。
[0204]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0205]
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法。
[0206]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0207]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1