基于storm的实时数据计算平台的制作方法

文档序号:10580185阅读:608来源:国知局
基于storm 的实时数据计算平台的制作方法
【专利摘要】本发明公开了基于storm 的实时数据计算平台,包括:数据采集模块,其采集网络数据,并将网络数据处理成预设固定格式的数据流;数据分类模块,其与数据采集模块连接,将数据流根据预设的分组条件分成子数据流并存储;数据计算控制模块,其与数据分类存储模块连接,对数据进行计算控制。本发明的有益效果是本发明支持对数据的提取、过滤、截断、切分、格式化,可对庞大的连续的数据流进行提取、过滤、分析操作,实时性高、有效性高,在数据接入的过程中通过本发明就已经被处理成方便使用、处理、存储的数据。本发明可计算复杂度高、维度多的数据,低成本、高效率、安全性高。
【专利说明】
基于storm的实时数据计算平台
技术领域
[0001]本发明涉及一种基于storm的实时数据计算平台。
【背景技术】
[0002]随着互联网的高速发展,大数据时代来临,为了更好的数据挖掘和更好的用户体验,对大数据管理的实时性要求提高。传统的批量计算模型已无法满足这些要求,网络数据格式多种多样,不方便存储及操作。

【发明内容】

[0003]本发明的目的是提供一种基于storm的实时数据计算平台,本发明一种基于流式计算的大数据预处理方法,解决数据处理实时性较差,数据格式不统一的问题,以便能更好更全面的对数据进行处理和存储。
[0004]本发明提供的技术方案为:
基于storm的实时数据计算平台,包括:
数据采集模块,其采集网络数据,并将网络数据处理成预设固定格式的数据流;
数据分类模块,其与所述数据采集模块连接,将数据流根据预设的分组条件分成子数据流并存储;
数据计算控制模块,其与所述数据分类存储模块连接,所述数据计算控制模块包括数据筛选单元,数据比对过滤单元,数据计算单元和数据计算结果分发单元,所述数据筛选单元根据预设筛选条件对存储的子数据流进行筛选,所述数据比对过滤单元将筛选过的子数据流和所需的数据流进行比对过滤,所述数据计算单元根据预设的计算表达式进行计算通过所述数据计算结构分发单元将计算结果分发输出。
[0005]优选的是,所述的基于storm的实时数据计算平台,还包括数据处理记录模块,其对数据处理数目及过程进行记录。
[0006]优选的是,所述的基于storm的实时数据计算平台,还包括数据丢失配置模块,其对丢失的数据进行配置处理并生成记录。
[0007]优选的是,在所述的基于storm的实时数据计算平台中,所述数据计算结果分发单元为KAFKA信息分发单元。
[0008]优选的是,在所述的基于storm的实时数据计算平台中,所述数据计算控制模块还包括缓存单元和数据清除单元,所述缓存单元对数据进行分区缓存,所述数据清除单元根据预设清零条件对所述缓存单元缓存的数据进行清除。
[0009]本发明的有益效果是本发明支持对数据的提取、过滤、截断、切分、格式化,可对庞大的连续的数据流进行提取、过滤、分析操作,实时性高、有效性高,在数据接入的过程中通过本发明就已经被处理成方便使用、处理、存储的数据。本发明可计算复杂度高、维度多的数据,低成本、高效率、安全性高。
【附图说明】
[0010]图1为本发明工作流程示意图。
【具体实施方式】
[0011]下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
[0012]基于storm的实时数据计算平台,包括:数据采集模块,其采集网络数据,并将网络数据处理成预设固定格式的数据流;数据分类模块,其与数据采集模块连接,将数据流根据预设的分组条件分成子数据流并存储;数据计算控制模块,其与数据分类存储模块连接,数据计算控制模块包括数据筛选单元,数据比对过滤单元,数据计算单元和数据计算结果分发单元,数据筛选单元根据预设筛选条件对存储的子数据流进行筛选,数据比对过滤单元将筛选过的子数据流和所需的数据流进行比对过滤,数据计算单元根据预设的计算表达式进行计算通过数据计算结构分发单元将计算结果分发输出;数据处理记录模块,其对数据处理数目及过程进行记录;数据丢失配置模块,其对丢失的数据进行配置处理并生成记录。其中,数据计算结果分发单元为KAFKA信息分发单元,数据计算控制模块还包括缓存单元和数据清除单元,缓存单元对数据进行分区缓存,数据清除单元根据预设清零条件对缓存单元缓存的数据进行清除。
[0013]采用本发明的预处理方法支持提取、过滤、截断、切分、格式化,可对庞大的连续的数据流进行提取、过滤、分析操作,实时性高、有效性高,在数据接入的过程中通过本发明就已经被处理成方便使用、处理、存储的数据。本平台可扩展性强,在多个线程、进程、服务器之间并行进行,支持灵活的水平扩展;本平台可以保证每条进入本平台的消息都能被完全处理;如果在消息处理中出现了一些异常,本平台会重新安排这个出错的处理单元,故本平台具有较高的容错性。
[0014]尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
【主权项】
1.基于storm的实时数据计算平台,其特征在于,包括: 数据采集模块,其采集网络数据,并将网络数据处理成预设固定格式的数据流; 数据分类模块,其与所述数据采集模块连接,将数据流根据预设的分组条件分成子数据流并存储; 数据计算控制模块,其与所述数据分类存储模块连接,所述数据计算控制模块包括数据筛选单元,数据比对过滤单元,数据计算单元和数据计算结果分发单元,所述数据筛选单元根据预设筛选条件对存储的子数据流进行筛选,所述数据比对过滤单元将筛选过的子数据流和所需的数据流进行比对过滤,所述数据计算单元根据预设的计算表达式进行计算通过所述数据计算结构分发单元将计算结果分发输出。2.如权利要求1所述的基于storm的实时数据计算平台,其特征在于,还包括数据处理记录模块,其对数据处理数目及过程进行记录。3.如权利要求1所述的基于storm的实时数据计算平台,其特征在于,还包括数据丢失配置模块,其对丢失的数据进行配置处理并生成记录。4.如权利要求1所述的基于storm的实时数据计算平台,其特征在于,所述数据计算结果分发单元为KAFKA信息分发单元。5.如权利要求1所述的基于storm的实时数据计算平台,其特征在于,所述数据计算控制模块还包括缓存单元和数据清除单元,所述缓存单元对数据进行分区缓存,所述数据清除单元根据预设清零条件对所述缓存单元缓存的数据进行清除。
【文档编号】G06F17/30GK105956135SQ201610310521
【公开日】2016年9月21日
【申请日】2016年5月12日
【发明人】杨昆, 阎星娥, 严荣明, 张 林, 石旦, 颜婷婷
【申请人】南京唯实科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1