一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法的制作方法

文档序号:12470269阅读:来源:国知局
技术总结
本发明公开了一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法,该算法步骤如下:(1)原始数据分布式存储于Hadoop平台的分布式文件系统HDFS上并分配成n个数据集;(2)每个数据集降维处理,抽取出最重要的特征向量,将特征维度从M降低到m,m<M;(3)降维后的数据集采用随机采样方式,按照3:1的比例划分为训练数据集和测试数据集;(4)对训练数据集采用梯度提升决策树迭代优化,选择损失函数最小的决策树模型为该数据集的最优模型;(5)优化后的决策树模型加权平均获得最终的梯度提升决策树模型;(6)利用(5)步的梯度提升决策树模型对各组数据集中的测试数据进行预测,确定模型的准确性并实现数据挖掘。本申请的方法压缩了原始数据量,降低了计算量,简化了运算复杂度,提高了计算效率和可靠性,实现了数据高效提取和利用。

技术研发人员:胡建斌;高洪涛;白志凌
受保护的技术使用者:北京北信源软件股份有限公司
文档号码:201610607692
技术研发日:2016.07.28
技术公布日:2016.12.21

当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1