一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法的制作方法

文档序号：12470269阅读：来源：国知局

技术总结
本发明公开了一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法，该算法步骤如下：(1)原始数据分布式存储于Hadoop平台的分布式文件系统HDFS上并分配成n个数据集；(2)每个数据集降维处理，抽取出最重要的特征向量，将特征维度从M降低到m，m<M；(3)降维后的数据集采用随机采样方式，按照3:1的比例划分为训练数据集和测试数据集；(4)对训练数据集采用梯度提升决策树迭代优化，选择损失函数最小的决策树模型为该数据集的最优模型；(5)优化后的决策树模型加权平均获得最终的梯度提升决策树模型；(6)利用(5)步的梯度提升决策树模型对各组数据集中的测试数据进行预测，确定模型的准确性并实现数据挖掘。本申请的方法压缩了原始数据量，降低了计算量，简化了运算复杂度，提高了计算效率和可靠性，实现了数据高效提取和利用。

技术研发人员：胡建斌;高洪涛;白志凌
受保护的技术使用者：北京北信源软件股份有限公司
文档号码：201610607692
技术研发日：2016.07.28
技术公布日：2016.12.21

完整全部详细技术资料下载

当前第3页1 2 3