一种多重抽样模型训练方法及装置与流程

文档序号:11386926阅读:179来源:国知局
一种多重抽样模型训练方法及装置与流程

本发明属于机器学习技术领域,尤其涉及一种多重抽样模型训练方法及装置。



背景技术:

“花呗”是蚂蚁金服旗下蚂蚁小贷在淘宝、天猫上提供给消费者“这月买下月还”的网购服务,其本质是小额消费贷款,就目前用户情况来看,贷款额度最低1000元,最高50000元。由于“花呗”与信用卡有着同样的功能—先消费后付款,这就为套现创造了空间。

在“花呗”反套现模型的业务场景中,需要用到机器学习算法对数据进行分类或回归计算,其中,训练样本的质量与数量对模型的预测效果将产生直接影响。另一方面,反套现模型是针对“花呗”卖家所制定的模型,即一个卖家对应一条样本,故数据样本总量不会太大,还远远达不到“大数据”的标准,且部分卖家的信息由于各种原因还存在缺省的现象,如果只是单纯用这些数据进行建模,效果将会大打折扣。

现有技术对小样本数据模型(包括花呗反套现模型)进行建模,主要是将样本总集划分为训练集与验证集,训练集的数据将用于机器学习模型训练,然后利用验证集对模型效果进行验证。这里存在的缺点是,如果训练集的样本划分比例过大,那么验证集的数据量相对减少,从而达不到对模型效果充分验证的目的;但如果训练集的样本划分比例过小,那么训练出的模型将直接由于训练不充分而导致模型预测精度下降。由此可见,由于数据样本量有限而导致的模型训练效果不佳已经成为反套现模型建模中急需解决的问题。



技术实现要素:

本发明的目的是提供一种多重抽样模型训练方法及装置,解决现有技术由于数据样本量有限而导致的模型训练效果不佳问题。

为了实现上述目的,本发明技术方案如下:

一种多重抽样模型训练方法,所述训练方法包括:

对全体样本进行多重抽样,得到每次抽样的训练集和验证集;

以每次抽样得到的训练集和验证集为一组,采用其中的训练集进行模型训练;

采用训练得到的模型分别评估训练集和验证集,根据训练集和验证集的评估结果,以及设定的淘汰准则淘汰训练得到的模型;

采用保留下的模型,对全体样本进行预测,并采用预测得到的结果对保留下的模型进行组合模型训练,得到最终的模型。

进一步第,所述对全体样本进行多重抽样,得到每次抽样的训练集和验证集,包括:

将全体样本分为m个子集,对m个子集进行多重抽样,得到n个训练集和n个验证集。

进一步地,所述采用训练得到的模型分别评估训练集和验证集,根据训练集和验证集的评估结果,以及设定的淘汰准则淘汰训练得到的模型,包括:

采用训练得到的模型分别评估训练集和验证集,得到每个训练得到的模型对应的性能指标;

根据每个训练得到的模型对应的性能指标,计算得到特征值;

根据计算得到特征值,淘汰特征值小于设定阈值的训练得到的模型。

进一步地,所述以每次抽样得到的训练集和验证集为一组,采用其中的训练集进行模型训练,包括:

训练得到每个训练得到的模型的第一模型参数。

进一步地,所述采用保留下的模型,对全体样本进行预测,并采用预测得到的结果对保留下的模型进行组合模型训练,得到最终的模型,包括:

采用保留下的模型,分别对全体样本进行预测,根据模型的第一模型参数,计算得到每个样本的第一预测值;

将每个样本的第一预测值输入到模型中进行再次模型训练,得到每个模型的第二模型参数;

根据每个模型的第二模型参数以及每个样本的第一预测值,计算得到每个样本的第二预测值,以计算得到的第二预测值作为模型的最终输出。

本发明还提出了一种多重抽样模型训练装置,所述训练装置包括:

抽样模块,用于对全体样本进行多重抽样,得到每次抽样的训练集和验证集;

第一训练模块,用于以每次抽样得到的训练集和验证集为一组,采用其中的训练集进行模型训练;

评估模块,用于采用第一训练模块训练得到的模型分别评估训练集和验证集,根据训练集和验证集的评估结果,以及设定的淘汰准则淘汰训练得到的模型;

第二训练模块,用于采用评估模块保留下的模型,对全体样本进行预测,并采用预测得到的结果对保留下的模型进行组合模型训练,得到最终的模型。

进一步地,所述抽样模块对全体样本进行多重抽样,得到每次抽样的训练集和验证集,执行如下操作:

将全体样本分为m个子集,对m个子集进行多重抽样,得到n个训练集和n个验证集。

进一步地,所述评估模块在采用第一训练模块训练得到的模型分别评估训练集和验证集,根据训练集和验证集的评估结果,以及设定的淘汰准则淘汰训练得到的模型时,执行如下操作:

采用训练得到的模型分别评估训练集和验证集,得到每个训练得到的模型对应的性能指标;

根据每个训练得到的模型对应的性能指标,计算得到特征值;

根据计算得到特征值,淘汰特征值小于设定阈值的训练得到的模型。

进一步地,所述第一训练模块在以每次抽样得到的训练集和验证集为一组,采用其中的训练集进行模型训练时,训练得到每个训练得到的模型的第一模型参数。

进一步地,所述第二训练模块在采用保留下的模型,对全体样本进行预测,并采用预测得到的结果对保留下的模型进行组合模型训练,得到最终的模型时,执行如下操作:

采用保留下的模型,分别对全体样本进行预测,根据模型的第一模型参数,计算得到每个样本的第一预测值;

将每个样本的第一预测值输入到模型中进行再次模型训练,得到每个模型的第二模型参数;

根据每个模型的第二模型参数以及每个样本的第一预测值,计算得到每个样本的第二预测值,以计算得到的第二预测值作为模型的最终输出。

本发明提出的一种多重抽样模型训练方法及装置,通过多重抽样多重验证的组合模型对小样本数据进行多重采集多重训练,最后将其再通过机器学习算法进行组合,从而使训练出的模型具有更加好的鲁棒性与稳定性,充分反复挖掘这些样本背后用户的行为,使其达到最好的模型拟合效果,提高预测精度。

附图说明

图1为本发明多重抽样模型训练方法流程图;

图2为本发明实施例多重抽样示意图;

图3为本发明多重抽样模型训练装置结构示意图。

具体实施方式

下面结合附图和实施例对本发明技术方案做进一步详细说明,以下实施例不构成对本发明的限定。

如图1所示,本实施例一种多重抽样模型训练方法,包括如下步骤:

步骤s1、对全体样本进行多重抽样,得到每次抽样的训练集和验证集。

本实施例以“花呗”反套现模型的业务场景为例,样本数据总体量不大,每个卖家对应一条样本。本发明的多重抽样可以直接从全体样本中抽取一定数量的训练集,剩下的作为验证集,抽样n次得到n个训练集和n 个验证集。也可以将全体样本分为m个子集,对m个子集进行多重抽样,得到n个训练集和n个验证集。

如图2所示,本实施例将全体样本平均分为五个子集,分别记为数据样本子集1、2、3、4、5。

在五个数据样本子集中,随机地抽取三个子集作为训练集,其余两个子集作为验证集。

采用同样的抽取方法反复进行n次,产生n个训练集与n个验证集,记为训练集1、验证集1,训练集2、验证集2,…,训练集n、验证集n。

本实施例经过上述多重抽样,使得原本数量有限的数据样本随机组合为n个训练集和验证集,便于在后续的模型训练中提供足够的训练样本和验证样本。

步骤s2、以每次抽样得到的训练集和验证集为一组,采用其中的训练集进行模型训练。

本实施例以100个人的样本为例,每个样本有特征变量(x变量)3个,分别为身高1、体重2、年龄3;目标变量(y变量)为是否是坏人的概率。

将100个人的样本分为5组,进行多重抽样。假设进行了3次抽样,得到3份不同的样本数据进行模型训练,得到了三组第一模型参数,分别记为a组w1a、w2a、w3a,b组w1b、w2b、w3b,c组w1c、w2c、w3c。

需要说明的是,本实施例不限于进行模型训练的具体方法,例如逻辑回归训练或是深度神经网络训练等,进行模型训练的过程就是训练得到模型参数的过程,这里不再赘述。

步骤s3、采用训练得到的模型分别评估训练集和验证集,根据训练集和验证集的评估结果,以及设定的淘汰准则淘汰训练得到的模型。

进行模型评估时常根据roc曲线来进行评价,例如根据准确度、灵敏度或auc来进行评价,其中auc是roc曲线下的面积。模型的性能越好roc曲线就越向左上方靠拢,它下面的面积(auc)也就应该越大。就可以根据auc的值来评估一个模型的预测效果。

以用于评价模型整体性能指标auc为例,记训练集与验证集的auc 分别为auctrain与aucverify。

引入每个模型的特征值criterion,保留criterion大于0的模型,淘汰掉criterion分小于0的模型,具体公式如下:

其中,auctraini与aucverifyi分别表示第i个模型训练集与验证集的auc,表示的意思则是该模型的淘汰准则。

需要说明的是,用于评价模型的整体性能指标,还可以采用柯尔莫哥洛夫-斯摩洛夫检验(kolmogorov-smirnov,ks检验),本发明不限于具体的性能指标,及对应的淘汰准则。

步骤s4、采用保留下的模型,对全体样本进行预测,并采用预测得到的结果对保留下的模型进行组合模型训练,得到最终的模型。

本实施例中,假设分组训练得到的三个模型都是满足淘汰准则保留下的模型,则利用得到的三组模型参数,就可以给这100个人进行打分,每个人分别有3个概率值,比如proba=pred(身高值*w1a+体重值*w2a+年龄值*w3a),同样可以求出probb和probc。

例如将100个人的样本输入到a、b、c三组模型中,每人得到三个概率值proba、probb和probc。

随后进行组合训练,即利用proba、probb和probc作为输入,目标变量不变,再进行模型训练,得出的第二模型参数为wproba、wprobb和wprobc。

最后根据如下公式求出的概率probfinal就是最终判别某个人是否是坏人的概率:probfinal=pred(proba值*wproba+probb值*wprobb+probc值*wprobc)。

经过上述组合模型训练后的模型即为最终模型,可用于对个人的样本进行识别。所得到的模型将具有更强的鲁棒性与稳定性,预测精度更加准确,且完全无需人工干预,完全由程序自动执行,大大提高建模效率。

如图3所示,本实施例一种多重抽样模型训练装置,包括:

抽样模块,用于对全体样本进行多重抽样,得到每次抽样的训练集和验证集;

第一训练模块,用于以每次抽样得到的训练集和验证集为一组,采用其中的训练集进行模型训练;

评估模块,用于采用第一训练模块训练得到的模型分别评估训练集和验证集,根据训练集和验证集的评估结果,以及设定的淘汰准则淘汰训练得到的模型;

第二训练模块,用于采用评估模块保留下的模型,对全体样本进行预测,并采用预测得到的结果对保留下的模型进行组合模型训练,得到最终的模型。

本实施例抽样模块对全体样本进行多重抽样,得到每次抽样的训练集和验证集,执行如下操作:

将全体样本分为m个子集,对m个子集进行多重抽样,得到n个训练集和n个验证集。本实施例采用这样的多重抽样方法抽样的训练样本数据更加均匀,用于模型训练效果更好。

本实施例评估模块在采用第一训练模块训练得到的模型分别评估训练集和验证集,根据训练集和验证集的评估结果,以及设定的淘汰准则淘汰训练得到的模型时,执行如下操作:

采用训练得到的模型分别评估训练集和验证集,得到每个训练得到的模型对应的性能指标;

根据每个训练得到的模型对应的性能指标,计算得到特征值;

根据计算得到特征值,淘汰特征值小于设定阈值的训练得到的模型。

与本发明方法对应地,本实施例性能指标为auc,根据每个模型的特征值criterion进行淘汰,这里不再赘述。

本实施例第一训练模块在以每次抽样得到的训练集和验证集为一组,采用其中的训练集进行模型训练时,训练得到每个训练得到的模型的第一模型参数。

则第二训练模块在采用保留下的模型,对全体样本进行预测,并采用预测得到的结果对保留下的模型进行组合模型训练,得到最终的模型时, 执行如下操作:

采用保留下的模型,分别对全体样本进行预测,根据模型的第一模型参数,计算得到每个样本的第一预测值;

将每个样本的第一预测值输入到模型中进行再次模型训练,得到每个模型的第二模型参数;

根据每个模型的第二模型参数以及每个样本的第一预测值,计算得到每个样本的第二预测值,以计算得到的第二预测值作为模型的最终输出。

从而训练得到最终的模型,可用于对个人的样本进行识别。所得到的模型将具有更强的鲁棒性与稳定性,预测精度更加准确,且完全无需人工干预,完全由程序自动执行,大大提高建模效率。

以上实施例仅用以说明本发明的技术方案而非对其进行限制,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1