一种基于贝叶斯网络和互信息的客户信用评分方法

文档序号：9327704阅读：467来源：国知局

一种基于贝叶斯网络和互信息的客户信用评分方法
【技术领域】
[0001] 本发明涉及一种利用数据挖掘或机器学习技术进行客户信用评分的方法，尤其是一种基于贝叶斯网络和互信息的客户信用评分方法。
【背景技术】
[0002] 信用评分（credit scoring)也称客户信用（或资信）评估（或评级），是近年来兴起的一种为了保障银行等金融机构的金融安全（即降低其市场活动风险）而采用的一种对客户资信进行分析预测的方法。
[0003] 信用评分是指根据客户的实证属性（empirical attributes)(如：客户的年龄、学历、收入、家庭情况，等）和客户信用历史属性（如：客户的按时还款（贷）情况、骗保情况，等）来构建一个信用评分模型（credit scoring model)，然后利用该信用评分模型来预测客户的信用分数（credit score)，从而评估客户的未来信用表现。
[0004] 现有的信用评分方法主要分为四类（参见："Nan_Chen Hsieha, Lun-Ping Hung:A data driven ensemble classifier for credit scoring analysis.Expert Systems with ApplicationsjVolume 37, Issue IjJanuary 2010, Pages 534 - 545 ；D01:10. 1016/ j.eswa. 2009. 05. 059"）：支持向量机（support vector machine)方法、决策树（decision tree)方法、神经网络（neural network)方法、以及贝叶斯网络(^Bayesian network)方法D
[0005] 支持向量机方法，典型的是Kima和Ahn于2012年提出的方法（参见：aKyoung-jae Kima，Hyunchul Ahn:A corporate credit rating model using multi-class support vector machines with an ordinal pairwise partitioning approach. Computers&Operations Research, Volume 39,Issue 8,August 2012,Pages 1800 - 1811 ； DOI: 10. 1016/j. con 2011. 06. 023")。该类方法需要通过训练样本来构建信用评分模型，但由于其难以处理大规模的训练样本，在实际中应用效果不佳。
[0006] 决策树方法，典型的是Bozsik和K^miendi于2011年提出的方法（参见："j0zsef Bozsikj Gergely Kormendi: Decision tree-based credit decision support system. LINDI 2011_3rd IEEE International Symposium on Logistics and Industrial Informatics，Proceedings，IEEE Computer Society，2011，Pages:189-193 ;D01:10.1109/ LINDI. 2011. 6031145"h该类方法难以根据不完整的客户数据来构建信用评分模型，且预测准确性（accuracy)与精度（precision)较低。
[0007] 神经网络方法，典型的是Hsieh于2005年提出的方法（参见："Nan-Chen Hsieh:Hybrid mining approach in the design of credit scoring models. Expert Systems with Applications, Volume 28, Issue 4, May 2005, Pages 655 - 665; D0I:10. 1016/j.eswa. 2004. 12.022")。该类方法存在以下缺陷：（1)除了大量客户数据外，还需很多的输入参数（如：网络拓扑结构、阈值、权重值，等）才能构建信用评分模型"2) 信用评分模型的直观性、评价结果的可解释性不够，从而影响输出结果的可信度。
[0008] 贝叶斯网络方法，典型的有Pavlenko和Chemyak于2010年提出的方法（参见："Tatjana Pavlenko, Oleksandr Chernyak:Credit risk modeling using bayesian networks. International Journal of Intelligent Systems, Volume 25,Issue 4, April 2010, pages 326 - 344 ;D01:10. 1002/int. 20410"）以及 Leong 于最近提出的方法 (参见：''Chee Kian Leong:Credit Risk Scoring with Bayesian Network Models. Computational Economics, First online on 24June2015at http://link, springer. com/article/10. 1007/sl0614-015-9505-8 ;D01:10. 1007/sl0614-015-9505-8"）。现有研究工作表明，该类方法具有以下优点：（1)在预测准确性与精度、信用评分模型的敏感性 (sensitivity)等方面比现有模型（尤其是基于神经网络方法的信用评分模型）更佳；（2) 能处理大规模的客户数据；（3)贝叶斯网络的图结构（graph structure)和概率参数估计 (probability parameter estimate)易于根据实际情况进行合理调整。
[0009] 在客户信用评分方法的实际应用中，常常会面临这样的问题或挑战：有的客户数据（实证属性与信用历史信息）与客户的信用表现关系不大，这就需要合理筛选有用的客户数据，以便构建更有效的信用评分模型。然而，仅用贝叶斯网络无法解决这个问题。在概率论和信息论中，互信息（mutual information, MI)(参见："Wenbin Qiana, Wenhao Shu:Mutual information criterion for feature selection from incomplete data. Neurocomputing, Volume 168, 30November 2015,Pages 210 - 220 ；D01:10. 1016/ j. neucom. 2015. 05. 105"）是变量之间相互依赖关系（mutual dependence)的一种度量，可用来有效地衡量变量之间的相关性。因此，在构建基于贝叶斯网络的信用评分模型过程中，可借助互信息机制来合理筛选有用的客户数据。正是基于这个思想，本发明提出一种基于贝叶斯网络和互信息的客户信用评分方法。
[0010] 下面简要说明本发明技术方案中采用的若干现有计算方法或算法。
[0011] 在构建初始贝叶斯网络过程中，采用了贝叶斯信息准则（Bayesian information criterion, BIC)(参见：''Ernst Wit, Edwin van den Heuvel, Jan-ffillem Romei jn: 'All models are wrong···' : an introduction to model uncertainty.Statistica NeerlandicajVolume 66, Issue 3,August 2012,pages 217 - 236 ；D01:10. 1111/ j. 1467-9574. 2012. 00530. x"）对贝叶斯网络进行评分。
[0012] 在构建初始贝叶斯网络过程中，采用了爬山（hill climbing)算法（参见：''J. A. Gamez, J. L. Mateo, and J. M. Puerta, "Learning Bayesian networks by hill climbing:efficient methods based on progressive restriction of the neighborhood, ''Data Mining and Knowledge Discovery, vol. 22, no. I - 2, January 2011，pp. 106 - 148，D0I:10. 1007/sl0618-010-0178-6. "）基于预处理过的客户数据来创建贝叶斯网络。
[0013] 在对客户信用评分模型的网络结构进行参数学习过程中，采用了最大似然估计(maximum-likelihood estimation)方法（参见："Michiel Hazewinkel(editor ):"Maximum-likelihood method", Encyclopedia of Mathematics, Springer,2001 ； ISBN978-1-55608-010-4"）。
[0014] 最后，为了评价本发明技术方案（即基于贝叶斯网络和互信息的客户信用评分方法）的性能（客户信用的预测准确性与精度），在本
【发明内容】
的【具体实施方式】中，我们给出了一个基于基准（benchmark)客户数据集的具体实施例，并将本发明技术方案与其他典型的客户信用评分方法（决策树方法、神经网络方法、初始贝叶斯网络方法）进行了性能比较。在性能比较时，我们采用了常用的接受者操作特征（receiver operating characteristic, ROC)(参见：''James A. Hanley, Barbara J. McNeil: The meaning and use of the area under a receiver operating characteristic(ROC) curve. Radiology, Volume 143, Is

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许卓明;庄远航;王骏华;唐彦;
技术所有人：河海大学;
我是此专利的发明人

上一篇：一种第三方信贷监管和风险评估的系统及方法
上一篇：一种发票认证方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。