一种适用于大数据下模型的高效特征选择方法与流程

文档序号：36647918发布日期：2024-01-06 23:31阅读：来源：国知局

技术特征：

1.一种适用于大数据下模型的高效特征选择方法，其特征在于，包括两个模块设定为模块一和模块二，具体包括以下步骤：

2.根据权利要求1所述的适用于大数据下模型的高效特征选择方法，其特征在于，所述模块一的步骤1.1中具体包括以下流程：对乱码脏数据的过滤、不规则数据的规则化、连续特征分箱、离散特征热编码和交叉特征处理。

3.根据权利要求2所述的适用于大数据下模型的高效特征选择方法，其特征在于，所述步骤1.2中，训练数据和预测数据的比例为7：3。

4.根据权利要求3所述的适用于大数据下模型的高效特征选择方法，其特征在于，所述步骤1.4中使用到的模型采用树模型xgboost，采用auc指标来作为模型效果的评估指标。

5.根据权利要求4所述的适用于大数据下模型的高效特征选择方法，其特征在于，所述模块二中的步骤2.1将数据特征对应的标签完全打乱采用以下程序：

6.根据权利要求5所述的适用于大数据下模型的高效特征选择方法，其特征在于，所述模块二中的步骤2.4中，初始化k＝1或k＝x。

技术总结
本发明涉及数据处理技术领域，具体地说，是一种适用于大数据下模型的高效特征选择方法，对清洗整理好的原始数据和特征，输入到选定的初始模型中训练，得到具体特征的重要性打分score，然后对于同样的样本数据的标签打乱，并重新计算特征重要性score，计算在这两种情况下特征score的偏离程度，按照偏离度的大小计算目标指标的效果，就可以得到全部的重要特征，选用得分最好的这一批特征作为线上模型的输入，进行线上模型的训练和预测，就能既节省大量成本又能提高迭代效率和效果。

技术研发人员：张磊磊,黄效军,张炎吾
受保护的技术使用者：苏州特思恩科技有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

当前第2页1 2