基于决策树的大数据分析方法与流程

文档序号：14452833阅读：1312来源：国知局

本发明涉及数据分析领域，具体涉及基于决策树的大数据分析方法。

背景技术：

大数据，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特点是数据量大、数据种类多、要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据，但是众多的信息和咨询是纷繁复杂的，我们需要搜索、处理、分析、归纳、总结其深层次的规律。

目前为了了解民生情况，政府部门收集大量的大数据，但是只能从单一层面上对大数据进行分析，这种分析结果无法全面反映人民需求，同时对新加入的数据还需要重新进行全面分析才可以使用，严重影响了政府机构判断和运作效率。

技术实现要素：

本发明所要解决的技术问题是为了了解民生情况，政府部门收集大量的大数据，但是只能从单一层面上对大数据进行分析，这种分析结果无法全面反映人民需求，同时对新加入的数据还需要重新进行全面分析才可以使用，严重影响了政府判断和运作效率，目的在于提供基于决策树的大数据分析方法，解决上述问题。

本发明通过下述技术方案实现：

基于决策树的大数据分析方法，包括以下步骤：s1：建立多层决策树；s2：提取至少两个有对应关系的数据作为数据组，并提取数据组的信息熵；s3：循环执行s2直至大数据库中大于阈值数量的数据都使用过；s4：对数据组进行聚类分析，将同一类型的数据组划入决策树的同一层，使得多层决策树的层级关系明确；s5：以层级关系明确后的多层决策树对新加入的数据进行分析。

现有技术中，为了了解民生情况，政府部门收集大量的大数据，但是只能从单一层面上对大数据进行分析，这种分析结果无法全面反映人民需求，同时对新加入的数据还需要重新进行全面分析才可以使用，严重影响了政府判断和运作效率。本发明应用时，先建立多层决策树；再提取至少两个有对应关系的数据作为数据组，并提取数据组的信息熵；然后循环执行s2直至大数据库中大于阈值数量的数据都使用过；然后对数据组进行聚类分析，将同一类型的数据组划入决策树的同一层，使得多层决策树的层级关系明确；再然后以层级关系明确后的多层决策树对新加入的数据进行分析。本发明通过建立决策树，并通过聚类的方法将决策树的层级关系进行明确，利用决策树和信息熵相结合的方法，使得大数据可以从多个层面上得到分析，提高了分析结果的准确度，并且对于新加入的数据，可以直接带入决策树中，分析速度大幅提高，进而的提高了政府的判断能力和运作效率。

进一步的，步骤s4包括以下子步骤：设置聚类密度和聚类半径；所述聚类半径对应数据组的信息熵。

进一步的，所述多层决策树至少有三层。

进一步的，所述阈值数量为70％～80％。

进一步的，步骤s5包括以下子步骤：s51：将新加入的数据填入决策树的第一层；s52：根据决策树的层级关系将数据映射入决策树的下一层；s53：重复执行s52直至数据抵达决策树的最后一层；s54：以决策树最后一层的结果作为数据分析的最终结果。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明基于决策树的大数据分析方法，通过建立决策树，并通过聚类的方法将决策树的层级关系进行明确，利用决策树和信息熵相结合的方法，使得大数据可以从多个层面上得到分析，提高了分析结果的准确度，并且对于新加入的数据，可以直接带入决策树中，分析速度大幅提高，进而的提高了政府的判断能力和运作效率。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例

本发明基于决策树的大数据分析方法，基于决策树的大数据分析方法，包括以下步骤：s1：建立多层决策树；s2：提取至少两个有对应关系的数据作为数据组，并提取数据组的信息熵；s3：循环执行s2直至大数据库中大于阈值数量的数据都使用过；s4：对数据组进行聚类分析，将同一类型的数据组划入决策树的同一层，使得多层决策树的层级关系明确；s5：以层级关系明确后的多层决策树对新加入的数据进行分析。步骤s4包括以下子步骤：设置聚类密度和聚类半径；所述聚类半径对应数据组的信息熵。所述多层决策树至少有三层。所述阈值数量为70％～80％，步骤s5包括以下子步骤：s51：将新加入的数据填入决策树的第一层；s52：根据决策树的层级关系将数据映射入决策树的下一层；s53：重复执行s52直至数据抵达决策树的最后一层；s54：以决策树最后一层的结果作为数据分析的最终结果。

本实施例实施时，先建立多层决策树；再提取至少两个有对应关系的数据作为数据组，并提取数据组的信息熵；然后循环执行s2直至大数据库中大于阈值数量的数据都使用过；然后对数据组进行聚类分析，将同一类型的数据组划入决策树的同一层，使得多层决策树的层级关系明确；再然后以层级关系明确后的多层决策树对新加入的数据进行分析。本发明通过建立决策树，并通过聚类的方法将决策树的层级关系进行明确，利用决策树和信息熵相结合的方法，使得大数据可以从多个层面上得到分析，提高了分析结果的准确度，并且对于新加入的数据，可以直接带入决策树中，分析速度大幅提高，进而的提高了政府的判断能力和运作效率。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：

技术总结
本发明公开了基于决策树的大数据分析方法，包括以下步骤：S1：建立多层决策树；S2：提取至少两个有对应关系的数据作为数据组，并提取数据组的信息熵；S3：循环执行S2直至大数据库中大于阈值数量的数据都使用过；S4：对数据组进行聚类分析，将同一类型的数据组划入决策树的同一层，使得多层决策树的层级关系明确。本发明基于决策树的大数据分析方法，通过建立决策树，并通过聚类的方法将决策树的层级关系进行明确，利用决策树和信息熵相结合的方法，使得大数据可以从多个层面上得到分析，提高了分析结果的准确度，并且对于新加入的数据，可以直接带入决策树中，分析速度大幅提高，进而的提高了政府的判断能力和运作效率。

技术研发人员：徐帅
受保护的技术使用者：成都逸重力网络科技有限公司
技术研发日：2017.12.11
技术公布日：2018.05.18

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐帅
技术所有人：成都逸重力网络科技有限公司
我是此专利的发明人

上一篇：用于汽车管道的吹塑玻纤增强聚丙烯复合材料及制备方法与流程
上一篇：一种复式推包机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。