1.一种适用于大数据下模型的高效特征选择方法,其特征在于,包括两个模块设定为模块一和模块二,具体包括以下步骤:
2.根据权利要求1所述的适用于大数据下模型的高效特征选择方法,其特征在于,所述模块一的步骤1.1中具体包括以下流程:对乱码脏数据的过滤、不规则数据的规则化、连续特征分箱、离散特征热编码和交叉特征处理。
3.根据权利要求2所述的适用于大数据下模型的高效特征选择方法,其特征在于,所述步骤1.2中,训练数据和预测数据的比例为7:3。
4.根据权利要求3所述的适用于大数据下模型的高效特征选择方法,其特征在于,所述步骤1.4中使用到的模型采用树模型xgboost,采用auc指标来作为模型效果的评估指标。
5.根据权利要求4所述的适用于大数据下模型的高效特征选择方法,其特征在于,所述模块二中的步骤2.1将数据特征对应的标签完全打乱采用以下程序:
6.根据权利要求5所述的适用于大数据下模型的高效特征选择方法,其特征在于,所述模块二中的步骤2.4中,初始化k=1或k=x。