本申请涉及数据挖掘,具体涉及一种基于gbdt的集成学习方法、装置、电子设备、及计算机程序产品。
背景技术:
1、集成学习(ensemble learning)通常通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统、基于委员会的学习等。集成学习的一般结构为:先产生一组“个体学习器”,再用某种策略将它们结合起来。在集成学习中,通常采用bagging模型、boosting模型、和stacking模型。其中bagging模型只能改善模型高方差的缺点,但是对模型偏差的控制没有比较好的效果;boosting模型是串行,必须先生成第一个分类器,然后依次往后,模型性能较差,且boosting模型仅能降低模型偏差;而stacking模型内部过于复杂,导致容易造成过拟合。
技术实现思路
1、本申请实施例提供一种基于gbdt的集成学习方法,用以解决采用现有模型实现的集成学习效果不佳的技术问题。
2、第一方面,本申请实施例提供一种基于gbdt的集成学习方法,包括:
3、基于梯度提升回归树,将原始特征转换为叶子结节位置,形成数据集;
4、基于所述数据集,利用滑动窗口,得到衍生特征;
5、对所述原始特征进行稀疏处理;
6、组合所述衍生特征和稀疏处理后的原始特征,得到若干训练数据集;
7、基于若干训练数据集,训练得到若干基模型;
8、当需要完成分类任务时,基于若干所述基模型输出的分类结果,根据预设分类汇总条件,得到最终分类结果。
9、在一个实施例中,所述基于梯度提升回归树,将原始特征转换为叶子结节位置,形成数据集,包括:
10、基于预测样本集,加强训练所述梯度提升回归树;
11、利用加强训练后的梯度提升回归树对训练样本集进行预测,得到所述训练样本集中每个样本的叶子结节位置;
12、合并所述预测样本集中每个样本的叶子结节位置和所述训练样本集中每个样本的叶子结节位置,形成第一数据集;
13、对所述第一数据集中的样本进行边界样本过滤和随机有放回抽取处理,得到第二数据集。
14、在一个实施例中,所述对所述第一数据集中的样本进行边界样本过滤和随机有放回抽取处理,得到第二数据集,包括:
15、按照正负样本将所述第一数据集分成第一正样本数据集和第一负样本数据集;
16、将样本标签在所述第一正样本数据集和在所述第一负样本数据集中的概率值转换为标准二维正态分布,按照预设过滤条件滤除拒绝样本,得到第二正样本数据集和第二负样本数据集;
17、按照预设样本抽取比例,分别对所述第二正样本数据集的样本和所述第二负样本数据集的样本进行随机有放回抽取处理。
18、在一个实施例中,所述基于所述数据集,利用滑动窗口,得到衍生特征,具体为:
19、采用滑动间隔为i维度的滑动窗口,分别对所述数据集中特征维度为l的k个特征进行窗口滑动,得到[(l-j)/i]*k个衍生特征。
20、在一个实施例中,所述对所述原始特征进行稀疏处理,具体为:
21、对所述原始特征中的离散特征进行独热编码处理;
22、利用特征工程算法,对进行独热编码处理后的离散特征和所述原始特征中的连续特征进行稀疏处理。
23、在一个实施例中,所述基于若干所述基模型输出的分类结果,根据预设分类汇总条件,得到最终分类结果,包括:
24、根据正负结果对若干所述基模型的分类结果进行分类统计,得到正结果比例和负结果比例;
25、选取大于或等于预设阈值的比例所对应的分类结果,作为最终分类结果。
26、在一个实施例中,所述预设阈值为50%。
27、第二方面,本申请实施例提供一种一种基于gbdt的集成学习装置,包括:
28、数据集形成模块,用于:基于梯度提升回归树,将原始特征转换为叶子结节位置,形成数据集;
29、衍生特征得到模块,用于:基于所述数据集,利用滑动窗口,得到衍生特征;
30、稀疏处理模块,用于:对所述原始特征进行稀疏处理;
31、训练数据集得到模块,用于:组合所述衍生特征和稀疏处理后的原始特征,得到若干训练数据集;
32、基模型得到模块,用于:基于若干训练数据集,训练得到若干基模型;
33、最终分类结果得到模块,用于:当需要完成分类任务时,基于若干所述基模型输出的分类结果,根据预设分类汇总条件,得到最终分类结果。
34、第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的基于gbdt的集成学习方法的步骤。
35、第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的基于gbdt的集成学习方法的步骤。
36、本申请实施例提供的基于gbdt的集成学习方法、装置、及电子设备,基于梯度提升回归树,将原始特征转换为叶子结节位置,形成数据集,以及基于数据集,利用滑动窗口,得到衍生特征,能够增加样本的多样性,扩大局部特征,使得模型能够更好地识别规律,降低模型偏差,改善集成学习效果;还对原始特征进行稀疏处理,组合衍生特征和稀疏处理后的原始特征,得到若干训练数据集,继而训练基模型,如此能够发现特征之间的非线性关系,弥补基模型的缺陷,增加基模型的多样性,以及提高整体模型的泛化能力,避免模型产生高方差,提高模型预测准确率。
1.一种基于gbdt的集成学习方法,其特征在于,包括:
2.根据权利要求1所述的基于gbdt的集成学习方法,其特征在于,所述基于梯度提升回归树,将原始特征转换为叶子结节位置,形成数据集,包括:
3.根据权利要求2所述的基于gbdt的集成学习方法,其特征在于,所述对所述第一数据集中的样本进行边界样本过滤和随机有放回抽取处理,得到第二数据集,包括:
4.根据权利要求1-3任一项所述的基于gbdt的集成学习方法,其特征在于,所述基于所述数据集,利用滑动窗口,得到衍生特征,具体为:
5.根据权利要求1-3任一项所述的基于gbdt的集成学习方法,其特征在于,所述对所述原始特征进行稀疏处理,具体为:
6.根据权利要求1-3任一项所述的基于gbdt的集成学习方法,其特征在于,所述基于若干所述基模型输出的分类结果,根据预设分类汇总条件,得到最终分类结果,包括:
7.根据权利要求6所述的基于gbdt的集成学习方法,其特征在于,所述预设阈值为50%。
8.一种基于gbdt的集成学习装置,其特征在于,包括:
9.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的基于gbdt的集成学习方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的基于gbdt的集成学习方法的步骤。