基于GBDT算法的评分卡模型的建模方法及其系统与流程

文档序号:21187517发布日期:2020-06-20 18:14阅读:1927来源:国知局
基于GBDT算法的评分卡模型的建模方法及其系统与流程

本发明涉及互联网金融风控技术领域,特别涉及基于gbdt算法的评分卡模型的建模方法及其系统。



背景技术:

随着互联网的兴起,p2p借贷、消费金融、汽车租赁等互联网金融公司呈现出百家争鸣、百花齐放的局面,但欺诈黑色产业链也开始不断地渗透到该新兴领域,只有拥有良好的风控技术,才可能在这股浪潮中健康发展。互联网金融风控技术主要使用传统的信用评分卡,借鉴国外的fico比较成熟成型的逻辑回归算法建立的风险预测模型,该信用评分卡算法通过对借款人的身份地位、职业特征、收支状况、征信历史等维度评估预测借款人的还款能力和意愿。基于逻辑回归算法的传统的金融风控评分卡模型优点在于解释性强,简单易于理解,能够直接看到各个特征的权重,也能容易地吸收新的数据来更新模型,广泛应用在信用风险控制领域。但随着大数据的发展,逻辑回归算法对于新型互联网数据局限性也比较明显,具体问题及难点有以下几点:

(1)数据预处理繁琐:数据形式呈现多样化,具有非结构化、饱和度低、数据稀疏等特性,复杂度极大提升,人工数据处理特征耗时耗力且效率低;

(2)特征工程困难:建模变量衍生加工后一般会达到上千甚至上万维度,远超出基于逻辑回归的传统风控建模评分卡体系的数据处理能力范围,急需更前沿的机器学习算法处理;

(3)模型稳定性不足:基于逻辑回归算法的单一模型属于弱分类器,可能存在稳定性不足及泛化能力较弱的问题。

gbdt模型是通过结合多个弱学习器(通常为决策树)而获得的强预测模型,gbdt算法是典型的集成学习算法。在gbdt算法流程中,使用已标注的样本依次训练出两个以上的决策树,然后将训练出的各个决策树集成为一个模型来作为训练结果。在训练当中,gbdt通过多次迭代生成的决策树的损失函数在梯度方向上减少,随着不断迭代和梯度下降,每一棵树学的是之前所有树结论和的残差,被依次训练出来的决策树的残差会越来越小,当训练残差足够小或小于设置的阈值,即模型参数对各已标注样本的标注值的拟合效果达标,便可结束训练。gbdt算法相比传统常用的信用评估的支持向量机以及逻辑回归算法,具有较好的稳定性和普适性,不需要做复杂的特征变换,可以灵活处理连续值、离散值以及混合类型特征的各种类型数据,且gbdt算法使用了一些健壮性的损失函数,可有效自动进行特征选择和处理异常点,对特征缺失值、异常值不敏感,是的模型的健壮性得到增强,另外在相对少的调参情况下,模型预测准确率较高,预测效率及效果均较好。



技术实现要素:

为了将更前沿的机器学习算法gbdt应用到实际互联网金融领域的传统模型中,将传统成熟的建模流程与先进算法相融合,解决复杂多维度数据处理问题以及传统的评分卡模型稳定性不足的问题,本发明中披露了基于gbdt算法的评分卡模型的建模方法及其系统,本发明的技术方案是这样实施的:

基于gbdt算法的评分卡模型的建模方法,包括以下步骤:

步骤一:建模样本的选择定义,首先根据产品业务定义样本的正负,其次抽取建模样本,排除特殊客户;

步骤二:数据特征获取,从步骤一中的建模样本中获取特征数据,所述特征数据包括人行征信、职业特征、收支状况、银行流水、职业特征、身份地位以及客户授权获取的第三方数据,得到模型初始数据;

步骤三:数据预处理,将步骤二中获取的初始数据划分为连续型数据和离散型数据,并分别对连续型数据和离散型数据做统计性分析,清洗数据中受“污染”的数据,检查数据一致性,处理无效值和缺失值;

步骤四:特征工程,首先,将步骤三中预处理后的数据做分箱处理,其次,根据各个分箱的证据权重woe继续分箱优化,最终得到变量的较优的信息价值iv,之后根据信息价值iv和ks选择进入模型的变量,并用证据权重woe替代转换模型的变量,生成建模数据;

步骤五:gbdt算法开发,将步骤四得到的建模数据按比例随机或跨时间划分为训练集和测试集,将训练集放到gbdt算法模型当中进行训练,并用测试集来验证训练后模型的评估指标;

步骤六:模型调参评估,对模型进行调参处理,根据模型的评估指标评估模型的区分能力、预测能力和稳定性,并生成评估报告,与其他算法模型对比,得出模型是否可以使用的结论;

步骤七:模型部署及监控,包括选择模型部署的系统平台,将模型部署到系统平台上,监控模型的信息价值iv、均值、psi、auc并根据监控定期更新模型。

进一步地,所述步骤三中的受“污染”的数据包括冗余数据、单一水平数据、稀疏数据、缺失不完整数据。

进一步地,所述评估指标包括ks、roc、auc、psi。

进一步地,基于gbdt算法的评分卡模型系统,包括:

信息采集模块:用于采集建模样本的特征数据,得到模型的初始数据;

数据预处理模块:将初始数据划分为连续型数据和离散型数据,并分别对连续型数据和离散型数据做统计性分析,根据统计分析,清洗数据中受“污染”的数据,分别对连续型数据和离散型数据做无效值处理和缺失值处理;

特征工程:将离散型数据特征变换处理为二值化/哑编码;通过等频分箱、等宽分箱、卡方分箱相结合的最优分箱策略对连续型数据做最优分箱处理,利用证据权重算法计算每组分箱的woe值,然后基于woe值计算出每个变量的信息价值iv,基于信息价值iv大小排序筛选出变量的预测能力最好的变量,并用woe值替代转换各个分箱;

gbdt算法开发模块:将经过特征工程处理后的数据按比例随机或根据申请日期跨时间划分为测试集和训练集,将所述训练集放到gbdt算法模型当中进行训练,并用测试集来验证训练后模型的模型指标;

gbdt算法调参模块:对模型进行多轮调参,并根据模型的评估指标评估模型的区分能力、预测能力和稳定性,最终选择一组最合适的参数配置,可调参数包括最大迭代次数、学习率、子采样、损失函数、最大特征数、最大深度、叶节点最少样本数、内部节点再划分所需最小样本数、叶子节点最少样本数、节点划分最小不纯度;

模型部署模块:模型经过调参及五折交叉验证方法重复训练达到稳定的理想结果后,将模型部署至系统平台,监控模型的信息价值iv、均值、psi、auc并根据监控定期更新模型。

实施本发明技术方案,将传统的信用评分卡的构建流程与gbdt算法相结合,在特征工程过后,利用gbdt算法替代逻辑回归算法对模型数据进行训练、调参、评估,可优化处理异常值和缺失值较高的新型互联网多维度数据,模型的健壮性、普适性、准确性均得到提高,更加适合当前大数据风控的需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一种实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

基于gbdt算法的评分卡模型的建模方法,结合图1所示,包括以下步骤:步骤一:建模样本的选择定义,首先根据产品业务定义样本的正负,其次抽取建模样本,排除特殊客户;步骤二:数据特征获取,从步骤一中的建模样本中获取特征数据,所述特征数据包括人行征信、职业特征、收支状况、银行流水、职业特征、身份地位以及客户授权获取的第三方数据,得到模型初始数据;步骤三:数据预处理,将步骤二中获取的初始数据划分为连续型数据和离散型数据,并分别对连续型数据和离散型数据做统计性分析,清洗数据中受“污染”的数据,检查数据一致性,处理无效值和缺失值;步骤四:特征工程,首先,将步骤三中预处理后的数据做分箱处理,其次,根据各个分箱的证据权重woe继续分箱优化,最终得到变量的较优的信息价值iv,之后根据信息价值iv和ks选择进入模型的变量,并用证据权重woe替代转换模型的变量,生成建模数据;步骤五:gbdt算法开发,将步骤四得到的建模数据按比例随机划分为训练集和测试集,将训练集放到gbdt算法模型当中进行训练,并用测试集来验证训练后模型的评估指标;步骤六:模型调参评估,对模型进行调参处理,根据模型的评估指标评估模型的区分能力、预测能力和稳定性,并生成评估报告,与其他算法模型对比,得出模型是否可以使用的结论;步骤七:模型部署及监控,包括选择模型部署的系统平台,将模型部署到系统平台上,监控模型的信息价值iv、均值、psi、auc并根据监控定期更新模型。

在该实施方式中,基于gbdt算法的评分卡模型系统,包括:信息采集模块:用于采集建模样本的特征数据,得到模型的初始数据;数据预处理模块:将初始数据划分为连续型数据和离散型数据,并分别对连续型数据和离散型数据做统计性分析,根据统计分析,清洗数据中受“污染”的数据,分别对连续型数据和离散型数据做无效值处理和缺失值处理;特征工程:将离散型数据特征变换处理为二值化/哑编码;通过等频分箱、等宽分箱、卡方分箱相结合的最优分箱策略对连续型数据做最优分箱处理,利用证据权重算法计算每组分箱的woe值,然后基于woe值计算出每个变量的信息价值iv,基于信息价值iv大小排序筛选出变量的预测能力最好的变量,并用woe值替代转换各个分箱;gbdt算法开发模块:将经过特征工程处理后的数据按比例随机划分为测试集和训练集,将所述训练集放到gbdt算法模型当中进行训练,并用测试集来验证训练后模型的模型指标;gbdt算法调参模块:对模型进行多轮调参,并根据模型的评估指标评估模型的区分能力、预测能力和稳定性,最终选择一组最合适的参数配置,可调参数包括最大迭代次数、学习率、子采样、损失函数、最大特征数、最大深度、叶节点最少样本数、内部节点再划分所需最小样本数、叶子节点最少样本数、节点划分最小不纯度;模型部署模块:模型经过调参及五折交叉验证方法重复训练达到稳定的理想结果后,将模型部署至系统平台,监控模型的信息价值iv、均值、psi、auc并根据监控定期更新模型。

在该实施方式中,所述步骤三中的受“污染”的数据包括冗余数据、单一水平数据、稀疏数据、缺失不完整数据;所述评估指标包括ks、roc、auc、psi。

实施该实施方式,将传统的信用评分卡的构建流程与gbdt算法相结合,在特征工程过后,利用gbdt算法替代逻辑回归算法对模型数据进行训练、调参、评估,可优化处理异常值和缺失值较高的新型互联网多维度数据,模型的健壮性、普适性、准确性均得到提高,更加适合当前大数据风控的需求。

需要指出的是,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1