一种适用于大数据下模型的高效特征选择方法与流程

文档序号:36647918发布日期:2024-01-06 23:31阅读:来源:国知局

技术特征:

1.一种适用于大数据下模型的高效特征选择方法,其特征在于,包括两个模块设定为模块一和模块二,具体包括以下步骤:

2.根据权利要求1所述的适用于大数据下模型的高效特征选择方法,其特征在于,所述模块一的步骤1.1中具体包括以下流程:对乱码脏数据的过滤、不规则数据的规则化、连续特征分箱、离散特征热编码和交叉特征处理。

3.根据权利要求2所述的适用于大数据下模型的高效特征选择方法,其特征在于,所述步骤1.2中,训练数据和预测数据的比例为7:3。

4.根据权利要求3所述的适用于大数据下模型的高效特征选择方法,其特征在于,所述步骤1.4中使用到的模型采用树模型xgboost,采用auc指标来作为模型效果的评估指标。

5.根据权利要求4所述的适用于大数据下模型的高效特征选择方法,其特征在于,所述模块二中的步骤2.1将数据特征对应的标签完全打乱采用以下程序:

6.根据权利要求5所述的适用于大数据下模型的高效特征选择方法,其特征在于,所述模块二中的步骤2.4中,初始化k=1或k=x。


技术总结
本发明涉及数据处理技术领域,具体地说,是一种适用于大数据下模型的高效特征选择方法,对清洗整理好的原始数据和特征,输入到选定的初始模型中训练,得到具体特征的重要性打分score,然后对于同样的样本数据的标签打乱,并重新计算特征重要性score,计算在这两种情况下特征score的偏离程度,按照偏离度的大小计算目标指标的效果,就可以得到全部的重要特征,选用得分最好的这一批特征作为线上模型的输入,进行线上模型的训练和预测,就能既节省大量成本又能提高迭代效率和效果。

技术研发人员:张磊磊,黄效军,张炎吾
受保护的技术使用者:苏州特思恩科技有限公司
技术研发日:
技术公布日:2024/1/15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1