一种面向大规模非平衡征信数据的个人信用风险评估方法及评估系统与流程

文档序号:15463309发布日期:2018-09-18 18:42阅读:来源:国知局

技术特征:

1.一种面向大规模非平衡征信数据的个人信用风险评估方法,其特征在于,该方法包括如下步骤:

步骤一:获取搜集的原始大规模个人信用记录数据集,构建模型训练的样本数据矩阵X和对应于样本数据的类别标签向量Y,其中,X=[x1,x2,…,xp]∈Rn×p为一组包含p个特征、n个样本的个人历史征信记录数据所构成的矩阵,其中xi=[x1i,x2i,…,xpi]T∈Rp(i=1,2,…,p)为表示样本的第i条个人信用记录;Y=[y1,y2,…,yn]T∈Rn×1表示对应于样本数据的类别标签向量,yj=1表示履约,记为“好客户”,yj=0表示违约,记为“坏客户”。

步骤二:根据自适应弹性网络模型AEnet对样本数据矩阵X进行维度约简,所述的自适应弹性网络模型AEnet为在弹性网络模型的基础上,在L1范数惩罚项中加入权重系数来实现变量的自动删选,该模型的准则定义如下式所示:

其中,为β的L2范数惩罚项,为β的L1范数惩罚项,而βi是基于矩阵X与Y的最小二乘估计值,λ1和λ2为两个非负的惩罚参数,且

其中,γ和λ1*为正常数。

步骤三:将经过AEnet模型维度约简后的训练样本集X*划分为少数样本类及多数样本类,利用类簇质心距离指数化衰减函数计算每个样本的隶属度,构建加权矩阵W,W为一个对角阵,对角线上的元素Wii即第i个样本的隶属度;

设在训练集X*上的整体类不平衡比率的倒数为δ,即少数类与多数类样本数之比为δ,则两类样本的隶属度为:

为第i个多数类客户信用记录样本所对应的隶属函数值,为第i个少数类客户信用记录样本所对应的隶属函数值;为评估函数,用于评估特定样本点在特征空间所处位置的重要程度,且考虑样本总体在特征空间的具体分布信息,建立基于类簇质心距离指数化衰减的隶属度确定函数,如下式所示:

为多数类或方差少数类所在簇类质心,到其所在簇类质心的欧氏距离,σ2为X*的总体方差。

步骤四:计算隐藏层输出矩阵H:

ai和bi分别表示第i个隐藏层节点的权重与偏置,G表示激活函数。

步骤五:计算输出权重矩阵θ的近似解

其中,为隐层输出矩阵H的Moore-Penrose广义逆;Y*为维度约简后的类别标签向量,且

步骤六:根据改进加权ELM模型IWELM计算第i个样例在隐藏层上的输出向量其中所述的IWELM的形式如下所示:

εi表示第i个训练样本的实际输出与期望输出之差;C为惩罚因子,用于调控网络的泛化能力与精确度间的平衡关系,s为删选后的样本数量。

步骤七:根据改进加权ELM模型IWELM得到

其中,I为单位矩阵,T为训练集X*对应的期望输出向量,将守约客户所对应类别输出节点的期望输出值设为1,违约客户所对应类别节点的输出值则设为0,K为标签类别数目。

步骤八:通过下式可确定该客户所对应的类别标签,从而完成个人信用风险评估;

2.根据权利要求1所述的面向大规模非平衡征信数据的个人信用风险评估方法,其特征在于,λ1和λ2为两个非负的惩罚参数,两者的最优值通过网格搜索及十折交叉法确定。

3.根据权利要求1所述的面向大规模非平衡征信数据的个人信用风险评估方法,其特征在于,所述的改进加权ELM模型IWELM的输入层的节点为s个,隐藏层为k个,输出层为m个。

4.根据权利要求1所述的面向大规模非平衡征信数据的个人信用风险评估方法,其特征在于,所述的步骤四中第i个隐藏层节点的权重与偏置ai和bi均为在[-1,1]区间内随机生成。

5.一种采用权利要求1-4任一项的个人信用风险评估方法的个人信用风险评估系统,其特征在于,该系统包括如下模块:

数据采集模块,用于采集并获取原始大规模个人信用记录数据;

数据预处理模块,用于将个人信用记录数据构建模型训练的样本数据矩阵X,标定类别标签,构建标签向量Y;

维度约简模块,用于根据样本数据矩阵X和标签向量Y,利用自适应弹性网络模型AEnet对原始大规模个人信用记录进行维度约简;

数据划分模块:用于将经过AEnet模型维度约简后的训练样本集X*划分为少数样本类及多数样本类;

隶属度计算模块:用于基于类簇质心距离指数化衰减函数计算每个样本的隶属度,构建加权矩阵W;

信用风险评估模块:根据改进加权ELM模型IWELM实施个人信用风险评估;

评估结果输出模块:用于输出个人信用风险评估结果。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1