基于森林区分度模型的预测方法及系统的制作方法

文档序号：6499138阅读：624来源：国知局

基于森林区分度模型的预测方法及系统的制作方法
【专利摘要】本发明公开了一种基于森林区分度模型的预测方法及系统，该方法包括：步骤1，基于随机森林算法使用建模数据进行建模，对所述建模数据进行分箱，并经过区分度模型求解，获得建模结果；步骤2，根据建立的模型和所述建模结果，对待预测的数据进行打分，获得预测结果。本发明能提供一种简单的、扩展的、有据可循的分箱方法，它简化了对数据的考量，及不需要精通较高深的运算理论，就能够使用该方法得到较好的分箱结果，从而得到效果较好的预测结果。这在很大程度上也提高了建模的效率和模型的精度。
【专利说明】基于森林区分度模型的预测方法及系统
【技术领域】
[0001]本发明涉及评分卡建模【技术领域】，尤其涉及一种基于森林区分度模型的预测方法及系统。
【背景技术】
[0002]评分卡是一个基于统计学的分析工具，它可以通过分析已经发生的现象，根据历史数据和各种相关因素，来预测将来某个特定结果发生的概率。分析的基础是一系列描述历史数据的互相关联的因素、变量、预测值或者回归方程的独立变量，我们称之为预测变量。待预测的某个特定结果称为目标变量。评分卡建模技术就是基于评分卡，建立预测变量和目标变量之间映射关系的技术，这种映射关系就是评分卡模型。评分卡模型的常用模型方法，有线性回归、逻辑回归、神经网络、决策树、区分度等。比如，我们可以通过分析已有的信用卡使用者的还款情况，来预测一个信用卡申请者在将来是否可能出现逾期不还款的行为。虽然授信者通过人工分析客户的历史信用资料，同样可以得到这样的分析结果，但利用信用评分却更加快速、更加客观、更具有一致性。
[0003]区分度模型是一种较稳定，且可解释性强的模型，在金融和电信领域广泛应用。区分度模型的目标变量是二分类型的，即其取值范围为两个值，如:好/坏，逾期/不逾期，是/否，等等。建模的目的是为了有效的区分好样本和坏样本。如图1C，假定坏样本的分布如图中部分1，好样本的分布如图中部分2，为了能够最好的区分出来好坏样本，我们设想最好的情况是坏样本的分布中不包含好的样本，好样本分布中不包含坏的样本，这样我们就可能达到完全分出来好坏样本的目的。当然在实际的操作过程中我们不可能达到理想的分布，但是我们的目标就是希望最大化的接近这种目的，因此在这个图中希望好坏样本交叉重叠的部分达到最小，当他们完全没有交叉重叠时也就是我们设想的理想情况了。
[0004]基于这种想法，提出了 DIV的公式(DIV公式的数学思想来源于Fisher判别分析方法。Fisher判别分析是模式识别领域广泛应用的一种分类方法，它根据最大化类间离散度、同时最小化类内离散度的准则，确定一系列线性变化方向，使各类之间最大程度的分离。)至今，该方法已成功应用于评估消费者信用风险、岩质边坡稳定性评价、非线性统计过程监控与故障诊断等众多领域。美国FICO公司提出的Divergence模型便是将Fisher判别方法与具有现实意义的限制条件相结合，从而成功应用于信用评估领域，大大方便了业务对模型的要求:
【权利要求】
1.一种基于森林区分度模型的预测方法，其特征在于，包括: 步骤1，基于随机森林算法使用建模数据进行建模，对所述建模数据进行分箱，并经过区分度模型求解，获得建模结果；步骤2，根据建立的模型和所述建模结果，对待预测的数据进行打分，获得预测结果。
2.如权利要求1所述的森林区分度模型建立方法，其特征在于，所述步骤I包括: 步骤11，基于所述随机森林算法，对所述建模数据进行分箱，获得分箱结果；步骤12，根据所述分箱结果将所述建模数据的变量转换为哑变量，利用所述哑变量进行区分度模型求解，获得各分箱权重；步骤13，根据所述各分箱权重计算所述建模数据中每个记录的分数，获得评分结果；步骤14，根据所述评分结果，决定区分好坏的分数，获得建模结果。
3.如权利要求2所述的基于森林区分度模型的预测方法，其特征在于，所述步骤11包括: 步骤111，随机抽取部分建模数据作为树的根节点，并加入到待分叉的树节点集合中；步骤112，判断所述待分叉的树节点集合是否为空，如果为空，则返回所述根节点的树；如果不为空，则从所述待分叉的树节点集合中选择一个节点，并从所述待分叉的树节点集合中删除该节点；步骤113，判断所述节点是否符合节点分叉条件，如果不符合条件，则返回步骤112，否则计算该节点的分叉的变量和分叉的值；步骤114，根据所述分叉的变量和分叉的值，得到所述分叉节点的左子节点和右子节点，并均加入所述待分叉的树节点集合中。
4.如权利要求2所述的基于森林区分度模型的预测方法，其特征在于，所述步骤13包括: 步骤131，根据所述各分箱权重，确定对应的多个叶子节点的权重；步骤132，根据每个叶子节点所代表的区间，获知某条记录在叶子节点区间的分布，将所述记录分布的所有叶子节点的权重加起来，得到该记录对应的分数；步骤133，根据步骤132计算所有记录对应的分数，获得评分结果。
5.如权利要求1所述的基于森林区分度模型的预测方法，其特征在于，所述步骤2中: 根据所述各分箱权重计算所述待预测数据中每个记录的分数，获得评分结果。
6.一种基于森林区分度模型的预测系统，其特征在于，包括: 建模模块，基于随机森林算法使用建模数据进行建模，对所述建模数据进行分箱，并经过区分度模型求解，获得建模结果；预测模块，根据建立的模型和所述建模结果，对待预测的数据进行打分，获得预测结果O
7.如权利要求6所述的森林区分度模型建立系统,其特征在于,所述建模模块包括: 分箱模块，基于所述随机森林算法，对所述建模数据进行分箱，获得分箱结果；区分模块，根据所述分箱结果将所述建模数据的变量转换为哑变量，利用所述哑变量进行区分度模型求解，获得各分箱权重；计算模块，根据所述各分箱权重计算所述建模数据中每个记录的分数，获得评分结果;分割模块，根据所述评分结果，决定区分好坏的分数，获得建模结果。
8.如权利要求7所述的基于森林区分度模型的预测系统，其特征在于，所述分箱模块包括: 抽取模块，随机抽取部分建模数据作为树的根节点，并加入到待分叉的树节点集合中；第一判断处理模块，判断所述待分叉的树节点集合是否为空，如果为空，则返回所述根节点的树；如果不为空，则从所述待分叉的树节点集合中选择一个节点，并从所述待分叉的树节点集合中删除该节点；第二判断处理模块，判断所述节点是否符合节点分叉条件，如果不符合条件，则返回第一判断处理模块，否则计算该节点的分叉的变量和分叉的值；结果获得模块，根据所述分叉的变量和分叉的值，得到所述分叉节点的左子节点和右子节点，并均加入所述待分叉的树节点集合中。
9.如权利要求7所述的基于森林区分度模型的预测系统，其特征在于，所述计算模块包括: 权重获得模块，根据所述各分箱权重，确定对应的多个叶子节点的权重；权重处理模块，根据每个叶子节点所代表的区间，获知某条记录在叶子节点区间的分布，将所述记录分布的所有叶子节点的权重加起来，得到该记录对应的分数；评分模块，根据权重处理模块计算所有记录对应的分数，获得评分结果。
10.如权利要求6所述的基于森林区分度模型的预测方法，其特征在于，所述预测模块中: 根据所述各分箱权重计算所述待预测数据中每个记录的分数，获得评分结果。
【文档编号】G06Q10/04GK103942604SQ201310018641
【公开日】2014年7月23日申请日期:2013年1月18日优先权日:2013年1月18日
【发明者】郑茂林, 徐春香, 宁庆庆, 戴霞, 吕尽轩, 裴晓景, 王静, 张明昊, 李胜涛, 曾祥洪申请人:上海安迪泰信息技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑茂林;徐春香;宁庆庆;戴霞;吕尽轩;裴晓景;王静;张明昊;李胜涛;曾祥洪
技术所有人：上海安迪泰信息技术有限公司
我是此专利的发明人

上一篇：基于电子名片开展电子商务的系统和方法
上一篇：一种获取网页中的图片信息的方法、装置和终端的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。