基于决策树的大数据分析方法与流程

文档序号:14452833阅读:1312来源:国知局

本发明涉及数据分析领域,具体涉及基于决策树的大数据分析方法。



背景技术:

大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特点是数据量大、数据种类多、要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。

目前为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府机构判断和运作效率。



技术实现要素:

本发明所要解决的技术问题是为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府判断和运作效率,目的在于提供基于决策树的大数据分析方法,解决上述问题。

本发明通过下述技术方案实现:

基于决策树的大数据分析方法,包括以下步骤:s1:建立多层决策树;s2:提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;s3:循环执行s2直至大数据库中大于阈值数量的数据都使用过;s4:对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;s5:以层级关系明确后的多层决策树对新加入的数据进行分析。

现有技术中,为了了解民生情况,政府部门收集大量的大数据,但是只能从单一层面上对大数据进行分析,这种分析结果无法全面反映人民需求,同时对新加入的数据还需要重新进行全面分析才可以使用,严重影响了政府判断和运作效率。本发明应用时,先建立多层决策树;再提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;然后循环执行s2直至大数据库中大于阈值数量的数据都使用过;然后对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;再然后以层级关系明确后的多层决策树对新加入的数据进行分析。本发明通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。

进一步的,步骤s4包括以下子步骤:设置聚类密度和聚类半径;所述聚类半径对应数据组的信息熵。

进一步的,所述多层决策树至少有三层。

进一步的,所述阈值数量为70%~80%。

进一步的,步骤s5包括以下子步骤:s51:将新加入的数据填入决策树的第一层;s52:根据决策树的层级关系将数据映射入决策树的下一层;s53:重复执行s52直至数据抵达决策树的最后一层;s54:以决策树最后一层的结果作为数据分析的最终结果。

本发明与现有技术相比,具有如下的优点和有益效果:

本发明基于决策树的大数据分析方法,通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。

实施例

本发明基于决策树的大数据分析方法,基于决策树的大数据分析方法,包括以下步骤:s1:建立多层决策树;s2:提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;s3:循环执行s2直至大数据库中大于阈值数量的数据都使用过;s4:对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;s5:以层级关系明确后的多层决策树对新加入的数据进行分析。步骤s4包括以下子步骤:设置聚类密度和聚类半径;所述聚类半径对应数据组的信息熵。所述多层决策树至少有三层。所述阈值数量为70%~80%,步骤s5包括以下子步骤:s51:将新加入的数据填入决策树的第一层;s52:根据决策树的层级关系将数据映射入决策树的下一层;s53:重复执行s52直至数据抵达决策树的最后一层;s54:以决策树最后一层的结果作为数据分析的最终结果。

本实施例实施时,先建立多层决策树;再提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;然后循环执行s2直至大数据库中大于阈值数量的数据都使用过;然后对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确;再然后以层级关系明确后的多层决策树对新加入的数据进行分析。本发明通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。



技术特征:

技术总结
本发明公开了基于决策树的大数据分析方法,包括以下步骤:S1:建立多层决策树;S2:提取至少两个有对应关系的数据作为数据组,并提取数据组的信息熵;S3:循环执行S2直至大数据库中大于阈值数量的数据都使用过;S4:对数据组进行聚类分析,将同一类型的数据组划入决策树的同一层,使得多层决策树的层级关系明确。本发明基于决策树的大数据分析方法,通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而的提高了政府的判断能力和运作效率。

技术研发人员:徐帅
受保护的技术使用者:成都逸重力网络科技有限公司
技术研发日:2017.12.11
技术公布日:2018.05.18
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1