一种基于主成分分析法的BP神经网络信用评估方法与流程

文档序号:11953069阅读:613来源:国知局
本发明涉及一种基于主成分分析法的BP神经网络信用评估方法。
背景技术
:目前,信用评估研究主要在金融机构内进行,其依据机构自身收集的业务数据,通过专业人士的分析评估,得到企业与个人的信用报告。仅仅依靠金融机构内的业务数据进行信用评估容易造成结论的片面性。当金融机构面对信息资料较少的客户时,往往不能得出有价值的信用评估。随着大数据的到来,多方面数据融合分析成为主流,尤其是政府大数据对于征信起着举足轻重的作用。我国政府掌握80%以上的数据,但因各种局限及部门利益影响,数据不能共享,大多处于隔离和休眠状态,而基于政府数据建立的评估模型由于其数据的完整性、广泛性和隐私性,分析得出的结果更有说服力和社会价值。政府大数据中涉及个人的数据主要包括:人社数据、教育数据、医疗卫生数据、就业数据等,存在数据维度大的特点,会造成计算复杂度的增加。技术实现要素:本发明的目的在于提供一种基于主成分分析法的BP神经网络信用评估方法,能克服专家打分的主观性,具有较高的分类正确率、实用性,以及较好的评估效果,能解决复杂的指标、多维的数据类型,更符合大数据处理的需求。本发明一种基于主成分分析法的BP神经网络信用评估方法,包括如下具体步骤:步骤1、从银行数据中梳理出涉及个人的政府数据,以及结合银行对于该个人的信用评估结果,形成样本数据,对样本数据进行归一化处理,获得处理过的样本数据矩阵X’:X′=x11′x12′...x1p′x21′x22′...x2p′............xn1′xn2′...xnp′]]>其中,x′ij表示第i个样本数据的第j个指标;步骤11、对于数值型的样本数据指标,采用下式进行归一化处理:其中,i=1,2,3,…,n,该n为样本总数,j=1,2,3,…,p,该p为数值型指标总数,xij表示第i个样本数据的第j个数值型指标,max{xij}表示第i个样本数据中数值最大的指标,min{xij}表示第i个样本数据中数值最小的指标,x′ij表示归一化处理后的第i个样本数据的第j个指标;步骤12、对于非数值型的样本数据指标,采用下式进行归一化处理:其中,i=1,2,3,…,n,该n为样本总数,j=1,2,3,…,q,该q为非数值型指标总数,xij表示第i个样本数据的第j个非数值型指标,m对应最终的分类等级,K是指分类等级数,wm表示各分类等级m对应的权重,Nm(xij)表示样本非数值型指标xij对应分类等级m下相同属性的数量,N(xij)表示样本非数值型指标xij相同属性总的数量;步骤2、利用PCA主成分分析法对步骤1中归一化后的样本数据矩阵进行降维处理,计算出其影响信用评估的主要因素和各因素排序,具体包括如下步骤:步骤21、步骤1归一化处理过的样本数据矩阵X’:X′=x11′x12′...x1p′x21′x22′...x2p′............xn1′xn2′...xnp′]]>建立用于反映归一化后的样本数据之间相关关系密切程度的协方差矩阵R,如下:R=Σi=1n(xi1′-u1-)(xi1′-u1-)n-1Σi=1n(xi2′-u2-)(xi1′-u1-)n-1...Σi=1n(xip′-up-)(xi1′-u1-)n-1Σi=1n(xi1′-u1-)(xi2′-u2-)n-1Σi=1n(xi2′-u2-)(xi2′-u2-)n-1...Σi=1n(xip′-up-)(xi2′-u2-)n-1............Σi=1n(xi1′-u1-)(xip′-up-)n-1Σi=1n(xi2′-u2-)(xip′-up-)n-1...Σi=1n(xip′-up-)(xip′-up-)n-1]]>其中,为样本数据X′中第p列的均值,所述的协方差矩阵R为实对称矩阵,即Rij=Rji;步骤22、根据协方差矩阵R计算特征值与特征向量:解特征方程|λI-R|=0,其中I为单位矩阵,求出特征值λi,其中i=1,2,…,p,并将其按大小顺序排列;分别求出对应于特征值λi的特征向量ei,这里要求||ei||=1,即其中eij表示特征向量ei的第j个分量;选择m个特征向量ei组成矩阵与样本数据Xi进行相乘,得到m个主成分Fi,其中m<p,公式如下:其中Fi1称为第i条样本xi第一主成分;步骤23、计算主成分贡献率和累计贡献率:由于特征值与主成分是一一对应的,第i个主成分Fi是通过第i个特征值λi对应的特征向量ei得到的,第i主成分Fi的贡献率就是通过第i个特征值λi计算得到的,则第i主成分Fi的贡献率公式如下:累计贡献率计算公式如下:取累计贡献率达85%~95%的m个特征值其所对应的m个主成分,其中m<p,从而得到新的训练样本F:其中F矩阵内的值由公式1-3计算获得;步骤3、运用BP神经网络建立个人信用评估的模型:步骤31、设计BP神经网络拓扑结构:根据Kolmogorov定理,建立三层BP神经网络,分别包括:输入层、隐层和输出层,该输入层节点数为步骤2中新产生的训练样本F的主成分个数m,输出层节点数为1个,隐层节点数按照Lippmann经验公式确定,训练函数为TRAINLM,适应学习函数为LEARNGDM,性能分析函数为MSE,隐层传递函数为TANSIG函数,输出层传递函数为PURELIN函数,按照Delta学习规则对各层节点之间的网络连接权值和阈值进行调整,网络全局误差E的计算公式为:式中,p代表训练样本的数目,Et为第t个训练样本的网络训练误差,zt为第t个训练样本的网络实际输出值,ct为第t个训练样本已知的银行对于个人的信用评估结果;步骤32、BP神经网络模型的训练:将步骤2经过数据降维的样本数据F进行训练,选样本数据F的一部分作为训练数据,剩余的作为测试数据,设置学习率、动量因子、各层的连接权值、输出阈值赋予(-1,1)间的随机数,所述BP神经网络训练采用Delta学习规则,预置网络全局误差E精度值及训练次数,计算网络全局误差E,若网络全局误差E小于预置的精度值或训练次数达到设定值,则结束训练,得到BP神经网络模型;步骤33、个人信用模型评估将测试数据输入到步骤32中训练得到的BP神经网络模型中进行模型测试,若分类精度达阈值以上,则认为具有较好的分类效果,该BP神经网络模型通过评估,否则,返回步骤31,重新调整BP神经网络拓扑结构,直至经过训练的BP神经网络模型对测试数据进行信用评估时达阈值分类精度;步骤4、将待进行信用评估的数据输入步骤3建立的个人信用评估的模型中,输出评估结果。该政府数据中涉及个人的数据主要包括:人社数据、教育数据、医疗卫生数据、就业数据。本发明从银行数据中梳理出涉及个人的政府数据,以及结合银行对于该个人的信用评估结果,形成样本数据,对样本数据归一化处理后提高了预测性能,利用主成分分析法对样本数据进行降维,能解决复杂的指标、多维的数据类型,更符合大数据处理的需求,并将银行对于个人的信用评估结果作为训练BP神经网络模型的参考,从而构建一种基于政府大数据的信用评估模型,能克服专家打分的主观性,给企业或个人提供信用查询,也对金融机构的信用体系进行补充,具有较高的分类正确率、实用性,以及较好的评估效果。具体实施方式本发明一种基于主成分分析法的BP神经网络信用评估方法,具体步骤如下:步骤1、从银行数据中梳理出涉及个人的政府数据,以及结合银行对于该个人的信用评估结果,形成样本数据,该政府数据中涉及个人的数据主要包括:人社数据、教育数据、医疗卫生数据、就业数据,例如,个人基本信息数据包括:性别、年龄、文化程度、婚姻状况等;健康状况数据包括:医疗花费情况、是否有重大疾病等;就业情况数据包括:就业单位、就业单位性质、失业情况等;社会保障状况数据包括:社保缴纳情况等,对样本数据进行归一化处理,获得处理过的样本数据矩阵X’:X′=x11′x12′...x1p′x21′x22′...x2p′............xn1′xn2′...xnp′]]>其中,x′ij表示第i个样本数据的第j个指标;步骤11、对于数值型的样本数据指标,采用下式进行归一化处理:其中,i=1,2,3,…,n,j=1,2,3,…,p,n为样本总数,p为数值型指标总数,xij表示第i个样本数据的第j个数值型指标,max{xij}表示第i个样本数据中数值最大的指标,min{xij}表示第i个样本数据中数值最小的指标,x′ij表示预处理后的第i个样本数据的第j个指标;步骤12、对于非数值型的样本数据指标,采用下式进行归一化处理:其中,i=1,2,3,…,n,j=1,2,3,…,q,n为样本总数,q为非数值型指标总数,xij表示第i个样本数据的第j个非数值型指标,m对应最终的分类等级,K是指分类等级数,例如:分类等级为优、良、中、差,则K为4,wm表示各分类等级m对应的权重,Nm(xij)表示样本非数值型指标xij对应分类等级m下相同属性的数量,N(xij)表示样本非数值型指标xij相同属性总的数量;举例说明,对于性别这一指标,分为男、女两个属性,假定100条记录中,男为60条,女为40条,分类等级为优、良、中、差,将分类等级赋予权重,依次为0.4,0.3,0.2,0.1,若性别分男、女分别对应分类等级的数量分布如下表所示:优良中差男30101010女10622则:步骤2、利用PCA主成分分析法对步骤1中归一化后的样本数据矩阵进行降维处理,计算出其影响信用评估的主要因素和各因素排序,所述PCA主成分分析法是一种数学变换的方法,通过降维的思路,把多指标转化为少数几个综合指标,它把给定的一组相关变量通过线性变换成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列,具体包括如下步骤:步骤21、步骤1归一化处理过的样本数据矩阵X’:X′=x11′x12′...x1p′x21′x22′...x2p′............xn1′xn2′...xnp′]]>建立用于反映归一化后的样本数据之间相关关系密切程度的协方差矩阵R,如下:R=Σi=1n(xi1′-u1-)(xi1′-u1-)n-1Σi=1n(xi2′-u2-)(xi1′-u1-)n-1...Σi=1n(xip′-up-)(xi1′-u1-)n-1Σi=1n(xi1′-u1-)(xi2′-u2-)n-1Σi=1n(xi2′-u2-)(xi2′-u2-)n-1...Σi=1n(xip′-up-)(xi2′-u2-)n-1............Σi=1n(xi1′-u1-)(xip′-up-)n-1Σi=1n(xi2′-u2-)(xip′-up-)n-1...Σi=1n(xip′-up-)(xip′-up-)n-1]]>其中,为样本数据X′中第p列的均值,所述的协方差矩阵R为实对称矩阵,即Rij=Rji;步骤22、根据协方差矩阵R计算特征值与特征向量:解特征方程|λI-R|=0,其中I为单位矩阵,求出特征值λi,其中i=1,2,…,p,并将其按大小顺序排列,即λ1≥λ2≥…≥λp≥0;分别求出对应于特征值λi的特征向量ei,这里要求||ei||=1,即其中eij表示特征向量ei的第j个分量;选择m个特征向量ei组成矩阵与样本数据Xi进行相乘,得到m个主成分Fi,其中m<p,公式如下:其中Fi1称为第i条样本xi第一主成分;步骤23、计算主成分贡献率和累计贡献率:由于特征值与主成分是一一对应的,第i个主成分Fi是通过第i个特征值λi对应的特征向量ei得到的,第i主成分Fi的贡献率就是通过第i个特征值λi计算得到的,则第i主成分Fi的贡献率公式如下:累计贡献率计算公式如下:取累计贡献率达85%~95%的特征值λ1,λ2,…,λm所对应的第1,第2,……,第m个主成分,其中m<p,从而得到新的训练样本F:其中F矩阵内的值由公式(1-3)获得;步骤3、运用BP神经网络建立个人信用评估的模型:步骤31、设计BP神经网络拓扑结构:根据Kolmogorov定理,建立三层BP神经网络,分别包括:输入层、隐层和输出层,该输入层节点数为步骤2中新产生的训练样本F的主成分个数m,输出层节点数为1个,隐层节点数按照Lippmann经验公式确定,训练函数为TRAINLM,适应学习函数为LEARNGDM,性能分析函数为MSE,隐层传递函数为TANSIG函数,输出层传递函数为PURELIN函数,按照Delta学习规则对各层节点之间的网络连接权值和阈值进行调整,网络全局误差E的计算公式为:式中,p代表训练样本的数目,Et为第t个训练样本的网络训练误差,zt为第t个训练样本的网络实际输出值,ct为第t个训练样本已知的银行对于个人的信用评估结果;步骤32、BP神经网络的训练:将步骤2经过数据降维的样本数据F进行训练,选样本数据F的70%作为训练数据,剩余的30%作为测试数据,设置学习率为0.6,动量因子取0.5,各层的连接权值、输出阈值赋予(-1,1)间的随机数,所述BP神经网络训练采用Delta学习规则,预置网络全局误差E精度值为0.5或训练次数大于5000,计算网络全局误差E,若网络全局误差E小于预置的精度值或训练次数达到设定值,则结束训练,得到BP神经网络模型;步骤33、个人信用模型评估将测试数据输入到步骤32中训练得到的BP神经网络模型中进行模型测试,若分类精度达阈值(70%)以上,则认为具有较好的分类效果,该BP神经网络模型通过评估,否则,返回步骤31,重新调整BP神经网络拓扑结构,直至经过训练的BP神经网络模型,对测试数据进行信用评估时,达阈值分类精度;步骤4、将待进行信用评估的数据输入步骤3建立的个人信用评估的模型中,输出评估结果。本发明的重点在于:本发明一种基于主成分分析法的BP神经网络信用评估方法,从银行数据中梳理出涉及个人的政府数据,以及结合银行对于该个人的信用评估结果,形成样本数据,对样本数据归一化处理后提高了预测性能,利用主成分分析法对样本数据进行降维,能解决复杂的指标、多维的数据类型,更符合大数据处理的需求,并将银行对于个人的信用评估结果作为训练BP神经网络模型的参考,从而构建一种基于政府大数据的信用评估模型,能克服专家打分的主观性,给企业或个人提供信用查询,也对金融机构的信用体系进行补充,具有较高的分类正确率、实用性,以及较好的评估效果。以上所述,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1