基于森林区分度模型的预测方法及系统的制作方法

文档序号:6499138阅读:624来源:国知局
基于森林区分度模型的预测方法及系统的制作方法
【专利摘要】本发明公开了一种基于森林区分度模型的预测方法及系统,该方法包括:步骤1,基于随机森林算法使用建模数据进行建模,对所述建模数据进行分箱,并经过区分度模型求解,获得建模结果;步骤2,根据建立的模型和所述建模结果,对待预测的数据进行打分,获得预测结果。本发明能提供一种简单的、扩展的、有据可循的分箱方法,它简化了对数据的考量,及不需要精通较高深的运算理论,就能够使用该方法得到较好的分箱结果,从而得到效果较好的预测结果。这在很大程度上也提高了建模的效率和模型的精度。
【专利说明】基于森林区分度模型的预测方法及系统
【技术领域】
[0001]本发明涉及评分卡建模【技术领域】,尤其涉及一种基于森林区分度模型的预测方法及系统。
【背景技术】
[0002]评分卡是一个基于统计学的分析工具,它可以通过分析已经发生的现象,根据历史数据和各种相关因素,来预测将来某个特定结果发生的概率。分析的基础是一系列描述历史数据的互相关联的因素、变量、预测值或者回归方程的独立变量,我们称之为预测变量。待预测的某个特定结果称为目标变量。评分卡建模技术就是基于评分卡,建立预测变量和目标变量之间映射关系的技术,这种映射关系就是评分卡模型。评分卡模型的常用模型方法,有线性回归、逻辑回归、神经网络、决策树、区分度等。比如,我们可以通过分析已有的信用卡使用者的还款情况,来预测一个信用卡申请者在将来是否可能出现逾期不还款的行为。虽然授信者通过人工分析客户的历史信用资料,同样可以得到这样的分析结果,但利用信用评分却更加快速、更加客观、更具有一致性。
[0003]区分度模型是一种较稳定,且可解释性强的模型,在金融和电信领域广泛应用。区分度模型的目标变量是二分类型的,即其取值范围为两个值,如:好/坏,逾期/不逾期,是/否,等等。建模的目的是为了有效的区分好样本和坏样本。如图1C,假定坏样本的分布如图中部分1,好样本的分布如图中部分2,为了能够最好的区分出来好坏样本,我们设想最好的情况是坏样本的分布中 不包含好的样本,好样本分布中不包含坏的样本,这样我们就可能达到完全分出来好坏样本的目的。当然在实际的操作过程中我们不可能达到理想的分布,但是我们的目标就是希望最大化的接近这种目的,因此在这个图中希望好坏样本交叉重叠的部分达到最小,当他们完全没有交叉重叠时也就是我们设想的理想情况了。
[0004]基于这种想法,提出了 DIV的公式(DIV公式的数学思想来源于Fisher判别分析方法。Fisher判别分析是模式识别领域广泛应用的一种分类方法,它根据最大化类间离散度、同时最小化类内离散度的准则,确定一系列线性变化方向,使各类之间最大程度的分离。)至今,该方法已成功应用于评估消费者信用风险、岩质边坡稳定性评价、非线性统计过程监控与故障诊断等众多领域。美国FICO公司提出的Divergence模型便是将Fisher判别方法与具有现实意义的限制条件相结合,从而成功应用于信用评估领域,大大方便了业务对模型的要求:
【权利要求】
1.一种基于森林区分度模型的预测方法,其特征在于,包括: 步骤1,基于随机森林算法使用建模数据进行建模,对所述建模数据进行分箱,并经过区分度模型求解,获得建模结果; 步骤2,根据建立的模型和所述建模结果,对待预测的数据进行打分,获得预测结果。
2.如权利要求1所述的森林区分度模型建立方法,其特征在于,所述步骤I包括: 步骤11,基于所述随机森林算法,对所述建模数据进行分箱,获得分箱结果; 步骤12,根据所述分箱结果将所述建模数据的变量转换为哑变量,利用所述哑变量进行区分度模型求解,获得各分箱权重; 步骤13,根据所述各分箱权重计算所述建模数据中每个记录的分数,获得评分结果; 步骤14,根据所述评分结果,决定区分好坏的分数,获得建模结果。
3.如权利要求2所述的基于森林区分度模型的预测方法,其特征在于,所述步骤11包括: 步骤111,随机抽取部分建模数据作为树的根节点,并加入到待分叉的树节点集合中;步骤112,判断所述待 分叉的树节点集合是否为空,如果为空,则返回所述根节点的树;如果不为空,则从所述待分叉的树节点集合中选择一个节点,并从所述待分叉的树节点集合中删除该节点; 步骤113,判断所述节点是否符合节点分叉条件,如果不符合条件,则返回步骤112,否则计算该节点的分叉的变量和分叉的值; 步骤114,根据所述分叉的变量和分叉的值,得到所述分叉节点的左子节点和右子节点,并均加入所述待分叉的树节点集合中。
4.如权利要求2所述的基于森林区分度模型的预测方法,其特征在于,所述步骤13包括: 步骤131,根据所述各分箱权重,确定对应的多个叶子节点的权重; 步骤132,根据每个叶子节点所代表的区间,获知某条记录在叶子节点区间的分布,将所述记录分布的所有叶子节点的权重加起来,得到该记录对应的分数; 步骤133,根据步骤132计算所有记录对应的分数,获得评分结果。
5.如权利要求1所述的基于森林区分度模型的预测方法,其特征在于,所述步骤2中: 根据所述各分箱权重计算所述待预测数据中每个记录的分数,获得评分结果。
6.一种基于森林区分度模型的预测系统,其特征在于,包括: 建模模块,基于随机森林算法使用建模数据进行建模,对所述建模数据进行分箱,并经过区分度模型求解,获得建模结果; 预测模块,根据建立的模型和所述建模结果,对待预测的数据进行打分,获得预测结果O
7.如权利要求6所述的森林区分度模型建立系统,其特征在于,所述建模模块包括: 分箱模块,基于所述随机森林算法,对所述建模数据进行分箱,获得分箱结果; 区分模块,根据所述分箱结果将所述建模数据的变量转换为哑变量,利用所述哑变量进行区分度模型求解,获得各分箱权重; 计算模块,根据所述各分箱权重计算所述建模数据中每个记录的分数,获得评分结果;分割模块,根据所述评分结果,决定区分好坏的分数,获得建模结果。
8.如权利要求7所述的基于森林区分度模型的预测系统,其特征在于,所述分箱模块包括: 抽取模块,随机抽取部分建模数据作为树的根节点,并加入到待分叉的树节点集合中; 第一判断处理模块,判断所述待分叉的树节点集合是否为空,如果为空,则返回所述根节点的树;如果不为空,则从所述待分叉的树节点集合中选择一个节点,并从所述待分叉的树节点集合中删除该节点; 第二判断处理模块,判断所述节点是否符合节点分叉条件,如果不符合条件,则返回第一判断处理模块,否则计算该节点的分叉的变量和分叉的值; 结果获得模块,根据所述分叉的变量和分叉的值,得到所述分叉节点的左子节点和右子节点,并均加入所述待分叉的树节点集合中。
9.如权利要求7所述的基于森林区分度模型的预测系统,其特征在于,所述计算模块包括: 权重获得模块,根据所述各分箱权重,确定对应的多个叶子节点的权重; 权重处理模块,根据每个叶子节点所代表的区间,获知某条记录在叶子节点区间的分布,将所述记录分布的所有叶子节点的权重加起来,得到该记录对应的分数; 评分模块,根据权重处理模块计算所有记录对应的分数,获得评分结果。
10.如权利要求6所述的基于 森林区分度模型的预测方法,其特征在于,所述预测模块中: 根据所述各分箱权重计算所述待预测数据中每个记录的分数,获得评分结果。
【文档编号】G06Q10/04GK103942604SQ201310018641
【公开日】2014年7月23日 申请日期:2013年1月18日 优先权日:2013年1月18日
【发明者】郑茂林, 徐春香, 宁庆庆, 戴霞, 吕尽轩, 裴晓景, 王静, 张明昊, 李胜涛, 曾祥洪 申请人:上海安迪泰信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1