一种基于多层模型构建增加入模维度的评分卡的方法与流程

文档序号:17865780发布日期:2019-06-11 23:11阅读:215来源:国知局
一种基于多层模型构建增加入模维度的评分卡的方法与流程

一种基于多层模型构建增加入模维度的评分卡的方法,用于基于多层模型构建可增加入模维度的评分卡,属于大数据、建模领域。



背景技术:

近年来,大数据技术不断发展,让我们能够收集用户不同方面的数据,这些数据让我们得以从多个角度去刻画目标对象。

对象数据进行分析时,需要通过多个维度的特征来描绘对象特征,传统的评分卡模型对对象数据进行分析时,在入模特征达到一定数量,一般为10个左右的时候,未入模特征中对模型性能提升开始快速下降,导致特征选择极为困难,出现新增特征后模型预测效果反而下降的情况。在不断丰富的外部数据环境下,已经造成了数据信息的大量浪费,也让模型预测效果受到了极大制约。同时,传统评分卡模型(即评分卡)输出结果单一,不足以满足对用户多维度数据进行描述的需求。



技术实现要素:

针对上述研究的问题,本发明的目的在于提供一种基于多层模型构建增加入模维度的评分卡的方法,解决现有技术中对对象进行分析的入模特征数量受到局限,不仅浪费了大量的数据信息资源,且造成模型预测效果也受到了制约的问题。

为了达到上述目的,本发明采用如下技术方案:

一种两层模型的构建方法,其特征在于:如下步骤:

s1、获取对象的多维度特征,并对各维度特征进行分析和预处理,得到预处理后的多维度特征;

s2、基于预处理后的多维度特征和机器学习算法进行两层建模,得到建好的模型;

s3、将测试数据集输入建好的模型进行预测,若达到预测效果,则得到最终模型,否则调整机器学习算法的参数和特征选择,再次执行步骤s2-s3。

进一步,所述步骤s1的具体步骤为:

s1.1、获取大量的对象特征信息,即获取大量对象的多维度特征,用大量对象的多维度特征构建信息库,从信息库中随机选择建模样本集和测试样本集,数据比例为7:3;

s1.2、对建模样本集中的各对象的多维度特征进行分析,即对建模样本集中的单个特征,分析特征自身的分布情况、特征缺失情况和特征信息价值iv,同时分析不同特征之间的相关性;

s1.3、各对象的多维度特征分析完成后进行数据预处理,即对分析完成的各特征依次进行异常特征剔除、共线特征剔除、缺失值填充、特征分箱和对特征进行证据权重转化。

进一步,所述步骤s2中的机器学习算法为logistic回归模型。

进一步,所述步骤s2的具体步骤为:

s2.1、对处理后的所有对象的多维度特征进行分类,并对同一分类的特征进行统一编码,其中分类方式为同一数据源分类、同一维度分类或同一衍生方式分类中的一种或者多种分类方法;

s2.2、利用logistic回归模型,为编码后的同一分类的特征建立第一层logistic模型,得到多个第一层logistic回归模型和模型系数,其中多个为分类数;

s2.3、根据分类,利用测试样本集对每一个第一层logistic回归模型的性能进行评估,若ks值或者auc值表明区分度达到要求,得到多个最终的第一层logistic回归模型,否则针对未达到要求的第一层logistic回归模型,调整步骤2.2中logistic回归模型参数和特征选择,再将对应的分类执行步骤s2.2-s2.3;

s2.4、将第一层logistic回归模型结果转化为评分卡,并利用评分卡计算每类特征对应的分类指数,分类指数为每类特征的分数形式;

s2.5、根据步骤s2.4得到的分类指数作为新特征,先对所有新特征进行分析和处理,再对其分箱后进行证据权重转化,根据证据权重转化的新特征计算各新特征的信息价值;

s2.6、基于步骤2.5得到的结果和logistic回归模型,构建第二层logistic回归模型,构建好第二层logistic回归模型后,即得到建好的两层logistic回归模型。

进一步,所述步骤s2.5的具体步骤为:

s2.51、将分类指数作为新特征并重新构造新样本集,新样本集包括新建模样本集和新测试样本集,分析新样本集中各新特征的分布情况,并分析特征之间是否存在多重共线性,由于多重共线性普遍存在,保留不存在严重多重共线性的特征,剔除存在严重多重共线性的特征中较不稳定、预测能力较弱的特征;

s2.52、对保留的新特征进行分箱,分箱过程要分析不同分箱之间的woe模式,即低分值区间的woe更低,高分值区间的woe更高,若woe模式出现反转,说明第一层logistic回归模型的排序性出现严重问题,即模型预测得分较高的样本坏概率反而较大,需要返回步骤2.2,重新对logistic回归模型参数和特征选择,再次执行步骤2.2-步骤2.5,再次执行步骤2.5时,在分箱的过程中,需增加分箱数量并让每个分箱的比例接近以增加特征区分度;

s2.53、对分箱后的新特征进行证据权重转化,然后计算各新特征的信息价值iv,即将得到的最终woe进行转化,得到进行证据权重转化后的新特征后计算各新特征的信息价值iv。

进一步,所述步骤s2.6的具体步骤为:

s2.61、根据新建模样本集中的新特征的信息价值高低,将信息价值最高的进行证据权重转化后的新特征输入logistic回归模型;

s2.62、输入下一个信息价值高的进行证据权重转化后的新变量到logistic回归模型,利用新测试样本集对logistic回归模型的性能进行ks值或者auc值评估,判断logistic回归模型的性能是否有变化,若有,重复步骤s2.62,否则得到建好的第二层logistic回归模型和第二层logistic回归模型系数。

进一步,还包括s4:获取测试样本输入第二层logistic回归模型,通过测试样本来计算psi值来评估建好的第二层logistic回归模型的稳定性,如果模型没有通过稳定性测试,需要返回s2.6调整入模新特征,否则模型通过稳定性,其中,计算psi的公式如下:

为了计算psi,需要将第二层logistic回归模型输出结果等频分段,再计算psi,

psi=sum((该分段实际样本占比-该分段预期样本占比)/ln(该分段实际样本占比/该分段预期样本占比)),计算psi;

其中,psi为群体稳定性指标。

一种基于两层模型构建增加入模维度的评分卡的方法,其特征在于:包括如下步骤:

步骤1、根据公式将第二层logistic回归模型预测结果转化为评分卡;

步骤2、第一层logistic回归模型结果转化得到的评分卡和第二层logistic回归模型预测结果转化得到的评分卡为最终的评分卡。

进一步,所述步骤1中的公式为:score=p+scoreij,公式中scoreij=wi*woeij*q,其中p为选定的基础分值,q为评分调整系数,p、q由正负样本比率翻倍的分值pdo和基础正负样本比率计算得到,scoreij为第i个进行证据权重转化后的新特征取值为第j个分箱时的得分,即第i个进行证据权重转化后的新特征取值为第j个分箱时第二层logistic回归模型预测结果,wi为逻辑回归中第i个进行证据权重转化后的新特征的权重,即第二层logistic回归模型系数,woeij为第i个进行证据权重转化后的新特征取值为第j个分箱时的进行证据权重转化后的新特征权重值。

本发明同现有技术相比,其有益效果表现在:

一、本发明通过两层建模的方式,并能够将近百个特征同时纳入模型,大大增加了模型能够纳入的信息维度;

二、本发明通过两层模型进行预测,借鉴了机器学习领域集成模型的思想,其结果是大大增加了模型的精准度;

三、区别于传统模型的单维输出,本发明在输出最终评分卡和最终分数以外,还能输出多套评分卡和多个分类指数,增加所需要的维度;

四、本发明利用结合建模、模型评估方法和预测结果转化方法,对特征进行分类,使得我们可以用一系列特征来构建新特征,新特征转化在一定程度上完成了对原始特征的降维,同时又保留了原始特征的可解释性;

五、本发明根据证据权重转化后的新特征重新建模后,重新转化为对原始特征(即对象的多维度特征)的评分卡,使得我们能够更好地理解评分卡结构,并通过原始特征直接计算最终评分。

附图说明

图1为本发明的框架示意图。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

一种多层模型的构建方法,如下步骤:

s1、获取对象的多维度特征,并对各维度特征进行分析和预处理,得到预处理后的多维度特征;具体步骤为:

s1.1、获取大量的对象特征信息,即获取大量对象的多维度特征,用大量对象的多维度特征构建信息库,从信息库中随机选择建模样本集和测试样本集,数据比例为7:3;其中,对象可为用户信用、针对某一类资料的真假或分析用户对相关主题的访问信息等。

s1.2、对信息库中的各对象的多维度特征进行分析,即对单个特征,分析特征自身的分布情况、特征缺失情况和特征信息价值iv,同时分析不同特征之间的相关性。iv(informationvalue),即信息价值,其主要作用就是当我们在用决策树或逻辑回归构建分类模型时对变量进行筛选,iv值就是衡量自变量的预测能力的大小。

s1.3、各对象的多维度特征分析完成后进行数据预处理,即对分析完成的各特征依次进行异常特征剔除、共线特征剔除、缺失值填充、特征分箱和对特征进行证据权重转化。

其中,异常特征剔除:对于分布过于异常的特征或者缺失率很高的特征,为了保证评分卡的稳定性和可解释性,应剔除这部分特征;

共线特征剔除:异常特征剔除后,如果存在高度共线性,保留相关特征中最稳定,预测能力最强的特征,剔除其中稳定性较差和预测能力较弱的特征;

缺失值填充:共线特征剔除后,对于缺失率较低的特征,采用均值填充的方式进行缺失值填充;

特征分箱:缺失值填充后,为了将logistic模型转化为标准评分卡,需要将连续特征离散化,即要进行特征分箱,依据特征取值的分布情况和各个区间woe模式,将特征分为多个离散区间,分箱过程需要人工干预调整,以保证分箱结果有足够的区分度、合理的单调性和可解释性;

对特征进行证据权重转化:特征分箱后,通过对特征进行证据权重转化,使得我们的logistic回归模型结果能够转变为评分卡。woe(weightofevidence,证据权重)是用来评估特征的预测能力的指标,woe的计算公式是:in[(违约/总违约)/(正常/总正常)],对应分箱的woe为正,说明分箱的用户好于整体用户,正值越大,说明用户越好,最终反映在评分卡结果中就是分值越高。

s2、基于预处理后的多维度特征和机器学习算法进行两层建模,得到建好的模型;机器学习算法为logistic回归模型。采用logistic回归模型的主要原因是因为其能够很好得转化为评分卡。

具体步骤为:

s2.1、对处理后的所有对象的多维度特征进行分类,并对同一分类的特征进行统一编码,其中分类方式包括同一数据源分类、同一维度分类或同一衍生方式分类,可以根据数据实际情况选择其中一种或者多种分类方法;如将特征分为收入类特征、社交类特征、欺出行类特征或访问时间类特征等;

s2.2、利用logistic回归模型,为编码后的同一分类的特征建立第一层logistic模型,得到多个第一层logistic回归模型和模型系数,其中多个为分类数;

logistic回归模型本身是一个非线性回归模型,经过iogit函数将相应特征y和线性自特征相联系,可以得到一个线性的形式,使用线性回归模型对参数进行估计。logit函数表达式为:其中x是线性回归输出结果,f(x)为logit函数输出结果,其目的是为了将预测结果映射到[0,1]的区间上;

s2.3、根据分类,利用测试样本集对每一个第一层logistic回归模型的性能进行评估,若ks值或者auc值表明区分度达到要求,得到多个最终的第一层logistic回归模型,否则针对未达到要求的第一层logistic回归模型,调整步骤2.2中logistic回归模型参数和特征选择,再将对应的分类执行步骤s2.2-s2.3;即通过选择不同的临界点,可以计算出每个临界点下累计坏样本的比例和累计好样本的比例,计算两者比例的差值,所有临界点最大的差值就是模型的ks值;同时,可以计算每个临界点下的真正率(tpr)和真负率(tnr),将每个临界点的真正率和真负率连接起来作为roc曲线,而roc曲线之下的面积,就是auc;

s2.4、将第一层logistic回归模型结果转化为评分卡,并利用评分卡计算每类特征对应的分类指数,分类指数为每类特征的分数形式;其中,评分卡包括评分形式(指哪个区间的值对应得多少分)和每类得到的分类指数。

s2.5、根据步骤s2.4得到的分类指数作为新特征,先对所有新特征进行分析和处理,再对其分箱后进行证据权重转化,根据证据权重转化的新特征计算各新特征的信息价值;具体步骤为:

s2.51、将分类指数作为新特征并重新构造新样本集,新样本集包括新建模样本集和新测试样本集,分析新样本集中各新特征的分布情况,并分析特征之间是否存在多重共线性,由于多重共线性普遍存在,保留不存在严重多重共线性的特征,剔除存在严重多重共线性的特征中较不稳定、预测能力较弱的特征;

s2.52、对保留的新特征进行分箱,分箱过程要分析不同分箱之间的woe模式,即低分值区间的woe更低,高分值区间的woe更高,若woe模式出现反转,说明第一层logistic回归模型的排序性出现严重问题,即模型预测得分较高的样本坏概率反而较大,需要返回步骤2.2,重新对logistic回归模型参数和特征选择,再次执行步骤2.2-步骤2.5,再次执行步骤2.5时,在分箱的过程中,需增加分箱数量并让每个分箱的比例接近以增加特征区分度;

s2.53、对分箱后的新特征进行证据权重转化,然后计算各新特征的信息价值iv,即将得到的最终woe进行转化,得到进行证据权重转化后的新特征后计算各新特征的信息价值iv,其中信息价值作为第二层logistic回归模型的特征入模顺序的参考。

s2.6、基于步骤2.5得到的结果和logistic回归模型,构建第二层logistic回归模型,构建好第二层logistic回归模型后,即得到建好的两层logistic回归模型。具体步骤为:

s2.61、根据新建模样本集中的新特征的信息价值高低,将信息价值最高的进行证据权重转化后的新特征输入logistic回归模型;

s2.62、输入下一个信息价值高的进行证据权重转化后的新变量到logistic回归模型,利用新测试样本集对logistic回归模型的性能进行ks值或者auc值评估,判断logistic回归模型的性能是否有变化,若有,重复步骤s2.62,否则得到建好的第二层logistic回归模型。

s3、将测试数据集输入建好的模型进行预测,若达到预测效果,则得到最终模型,否则调整机器学习算法的参数和特征选择,再次执行步骤s2-s3。

可以使用ks值或者auc值来对每一个logistic回归模型的性能进行评估,ks值和auc的值越大说明模型对好坏样本的区分度更好,如果模型性能不够理想,调整logistic回归模型参数和特征选择,必要时多次重复以上步骤以达到预期效果,即多次执行步骤s2-s3。

还包括s4:获取测试样本输入第二层logistic回归模型,通过psi值来评估建好的logistic回归模型的稳定性,一般认为psi小于0.1的时候模型稳定性很高,0.1-0.25一般,大于0.25模型稳定性差。通通过测试样本来计算psi值来评估建好的第二层logistic回归模型的稳定性,如果模型没有通过稳定性测试,需要返回s2.6调整入模新特征,否则模型通过稳定性,其中,计算psi的公式如下:

为了计算psi,需要将第二层logistic回归模型输出结果等频分段,再计算psi,

psi=sum((该分段实际样本占比-该分段预期样本占比)/in(该分段实际样本占比/该分段预期样本占比)),计算psi;

其中,psi为群体稳定性指标,其反映了各个分数区间内的特征所对应的对象占总对象的占比是否有显著变化,即对象是否有显著偏移。

一种基于多层模型构建增加入模维度的评分卡的方法,包括如下步骤:

步骤1、根据公式将第二层logistic回归模型预测结果转化为评分卡;评分卡包括评分形式和分类指数的得分。

另外,因为相较于传统评分卡模型特征数量大幅增加,常用的600分模型区间会因为精度的原因限制评分卡效果,本发明需加大评分卡区间至6000。

公式为:score=p+scoreij,公式中scoreij=wi*woeij*q,其中p为选定的基础分值,q为评分调整系数,p、q由正负样本比率翻倍的分值pdo和基础正负样本比率计算得到,scoreij为第i个进行证据权重转化后的新特征取值为第j个分箱时的得分,即第i个进行证据权重转化后的新特征取值为第j个分箱时第二层logistic回归模型预测结果,wi为逻辑回归中第i个进行证据权重转化后的新特征的权重,即第二层logistic回归模型系数,woeij为第i个进行证据权重转化后的新特征取值为第j个分箱时的进行证据权重转化后的新特征权重值。

步骤2、第一层logistic回归模型结果转化得到的评分卡和第二层logistic回归模型预测结果转化得到的评分卡为最终的评分卡。

实施例

以下举例说明,本发明通过用户相关特征进行对用户进行预测的应用。

1、尽可能多收集用户相关信息(即对象特征信息),内部信息包括用户在企业数据库中的购买记录(包括购买偏好、购买价位、购买数量、购买频率、购买时间分布、购买地区分布)、退换记录、回访记录、用户填写个人信息等,外部信息包括用户的社交信息(用户社交范围、社交频率、社交时段等)、网页浏览信息(浏览量,浏览偏好,阅读速度)、电商信息(购买数量,购买金额,购买频率,购买类型等)、出行信息等。同时先对随机部分用户进行相关信息的推送或相关信息的生成显示,然后收集用户的预测目标,结合收集到的用户信息生成建模样本集和测试样本集,用建模样本和测试样本构建信息库:

2、按本发明涉及方法进行数据分析和预处理,如预处理中经分析发现“近三月最大购买单价”和“近六月最大购买单价”呈高度共线性,选择预测效果更好的“近六月最大购买单价”保留,剔除特征“近三月最大购买单价”,然后对特征进行分箱,根据woe模式和特征分布,将“近六月最大购买单价”特征分为“[0,100),[100,500),[500,1000),[1000,+)”,其余特征做同样操作,分箱后对每个分箱进行特征权重转化;

3、特征分类,按数据源将特征分为购买类特征、退换类特征、回访类特征、个人信息类特征,社交类特征、浏览类特征、电商类特征、出行类特征等;

4、对每个分类建立第一层逻辑回归模型,即第一层logistic回归模型,得到多个模型结果,模型输入为特征权重转化以后的特征,输出为模型预测响应/未响应的比例;

5、使用测试样本集对每个模型(即第一层logistic回归模型)结果进行评估,使用ks值评价模型区分能力,社交类特征和个人信息类特征ks较低,尝试重新调整社交模型和个人信息logistic回归模型的模型参数和特征选择,以得到更好的拟合模型;

6、对每个第一层logistic回归模型结果进行评分转化,首先确定基础分为600,基础正负比率为1/60,pdo(比率翻倍的分值)为20,计算得到p=481.9,q=28.9,再依据入模特征分箱woe,logistic回归模型系数w,根据公式scoreii=wi*woeij*q计算每箱得分,为如对“购买指数”中“近六月最大购买单价”特征,得到[0,100),[100,500),[500,1000),[1000,+)的转化评分分别为-15,-7,8,14,并用公式score=p+scoreij计算最终评分,其中,scoreij为第i个特征取值为第j个分箱时的得分,wi为逻辑回归中第i个特征的权重,即第一层logistic回归模型的系数,woeij为第i个特征取值为第j个分箱时的特征权重值;

7、依据步骤6得到的结果,构建分类指数,得到购买指数、退换指数、回访指数、个人信息指数,社交指数、浏览指数、电商指数、出行指数等,经分析指数之间没有明显的共线性;

8、用上述分类指数和预测目标重新构造样本,分析分类结果之间的共线性情况,由于没有明显的共线性,并对分类指数进行分箱和证据权重转化;

9、利用处理后的分类结果重新建立逻辑回归模型(即logistic回归模型),构建好第二层logistic回归模型后,并用ks/auc评价模型效果;

10、使用测试样本输入第二层logistic回归模型,通过输出结果计算模型psi,对模型进行稳定性评估,计算结果psi<0.1,认为模型稳定;

11、对第二层逻辑回归模型的预测结果进行评分卡转化;

12、第一层logistic回归模型结果转化得到的评分卡和第二层logistic回归模型预测结果转化得到的评分卡为最终的评分卡,对新的数据进行评分,输出分类评分结果。用户即可通过划定分数线,通过结果,清楚的知晓哪些用户的情况,可用于相关信息的评估,相关信息的推送,以及用于材料评估时,可以用于判断是否能通过等。

以上仅是本发明众多具体应用范围中的代表性实施例,对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案,均落在本发明权利保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1