集成分布式数据处理系统的方法、相应系统及其数据处理方法

文档序号:9708418阅读:237来源:国知局
集成分布式数据处理系统的方法、相应系统及其数据处理方法
【技术领域】
[0001]本发明涉及数据处理技术领域,具体涉及集成分布式数据处理系统的方法、相应系统及其数据处理方法。
【背景技术】
[0002]随着互联网,物联网,020(0nline to Offline,线上到线下)的不断发展,各个领域软件系统的数据也都急剧增长,并且不断打破原有软硬件架构的瓶颈,导致海量数据处理成为目前各行各业最急需也是最难解决的问题之一。
[0003]面对数据不断增长的问题,各种新的技术不断涌现,包括云存储、集群、分布式存储、列式存储及搜索引擎等。通常情况下,上述技术可以解决海量数据的处理,但又各有优劣,每项技术不能完全解决海量数据的所有问题,往往需要相互结合才能解决实际问题,如列式存储主要针对关系型数据库,为了降低数据的存储空间而设计,但使用该技术的同时又带来了数据关联和检索的问题。随着传统行业与IT行业的不断融合,海量数据的处理将会越来越复杂,如在网安行业就同时面临着海量数据的存储,检索和运算等问题,此时任何单一的技术都将显得捉襟见肘,并不能很好的处理海量数据。

【发明内容】

[0004]本发明实施例提出了集成分布式数据处理系统的方法、相应系统及其数据处理方法,以达到多元化处理海量数据的目的。
[0005]第一方面,本发明实施例提供了一种集成分布式数据处理系统的方法,包括:
[0006]搭建分布式系统基础架构Hadoop集群;
[0007]在所述Hadoop集群上建立分布式数据库Hbase、全文搜索服务器Solr以及分布式实时计算系统Storm,获得分布式数据处理系统的总架构;
[0008]在所述总架构的数据访问层上,设置第一配置文件和第二配置文件,以提供统一的数据访问接口,集成分布式数据处理系统。
[0009]第二方面,本发明提供了一种分布式数据处理系统,该系统基于本发明实施例所提供的集成方法集成,包括:
[0010]Hadoop集群、配置于所述集群中的分布式数据库Hbase、全文搜索服务器So lr和分布式实时计算系统Storm、以及配置于所述集群的数据访问层上的统一数据访问接口;
[0011]其中,所述分布式数据库Hbase、全文搜索服务器Solr以及分布式实时计算系统Storm通过配置于所述集群的数据访问层上的第一配置文件和第二配置文件进行各服务器功能的集成。
[0012]第三方面,本发明还提供了一种基于本发明实施例提供的分布式数据处理系统的数据处理方法,包括:
[0013]通过数据访问接口,获取业务数据访问请求;
[0014]根据所述业务数据访问请求,统一调度系统中的分布式数据库Hbase、全文搜索服务器So lr以及分布式实时计算系统Storm,完成对所述访问请求的响应。
[0015]本发明实施例中提供的集成分布式数据处理系统的方法、相应系统及其数据处理方法,首先在Hadoop集群上搭建分布式数据库Hbase、全文搜索服务器Solr以及分布式实时计算系统Storm,获得了分布式处理系统的总架构;然后基于对总架构上不同配置文件的设置,提供了统一的数据访问结构,由此集成了本发明所提的分布式数据处理系统;基于所述分布式处理系统,可以实现Hbase、S0lr以及Storm各服务平台所具有功能的关联,实现数据的多元化处理。本发明提供的数据处理方法描述了数据多元化处理的过程。本发明所提的集成分布式数据处理系统的方法,成本耗费低、操作简单、易于实现;本发明所提的分布式数据处理系统,是面向大数据的处理系统,其适应性强、适用范围广,达到了简单快速进行海量数据多元化处理的效果。
【附图说明】
[0016]图1为本发明实施例一提供的一种集成分布式数据处理系统的方法的流程示意图;
[0017]图2为本发明实施例二提供的一种分布式数据处理系统的总体结构层次图;
[0018]图3为本发明实施例三提供的一种基于分布式数据处理系统的数据处理方法的流程图;
[0019]图4为本发明实施例三提供的分布式数据处理系统的整体运行架构视图。
【具体实施方式】
[0020]下面结合附图并通过【具体实施方式】来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
[0021 ] 实施例一
[0022]图1为本发明实施例一提供的一种集成分布式数据处理系统的方法的流程示意图,如图1所示,该方法包括:
[0023 ]步骤101、搭建分布式系统基础架构Hadoop集群。
[0024]在本实施例中,所述分布式系统基础架构Hadoop具体为一个能够对海量数据进行分布式处理的软件框架。在组成该软件框架的底层是一个Hadoop分布式文件系统(HadoopDistributed File System,HDFS),该文件系统可存储Hadoop集群中所有存储节点上的文件。
[0025]进一步的,在操作系统Linux上搭建版本为Hadoop2.0的分布式系统基础架构。
[0026]在本实施例中,所述Hadoop集群具体作为一个集成分布式数据处理系统的基础平台,数据处理所需的几个服务平台均需要基于该集群建立。一般情况下,Hadoop集群的搭建需要Linux操作系统的支持,由于搭建分布式系统基础架构Hadoop集群的具体过程为现有技术,这里不再详述。需要注意的是,为了使Hadoop能够兼容更多的服务平台,本发明中选取Hadoop2.0版本进行搭建。
[0027]此外,经过搭建配置后,多台计算机组成了一个Hadoop2.0集群。所述集群中的计算机可以有1台计算机用于作为Hadoop的名称节点NameNode,其余计算机则作为数据节点DataNode,即一个Hadoop集群具有一个名称节点NameNode和多个数据节点DataNode,从而组成了分布式系统的基础架构。
[0028]步骤102、在所述Hadoop集群上建立分布式数据库Hbase、全文搜索服务器Solr以及分布式实时计算系统Storm,获得分布式数据处理系统的总架构。
[0029]在本实施例中,搭建好Hadoop集群后,可以在该集群上建立具有特殊处理功能的服务平台。如本发明所提的分布式数据库Hbase、全文搜索服务器Solr以及分布式实时计算系统Storm。
[0030]具体的,所述分布式数据库Hbase为一个数据并行存储系统,可用于海量数据的并行存储。同时,所述Hbase是Hadoop项目的一个子项目,是一个非结构化数据存储的数据库。在组成Hadoop的结构层次中,Hbase位于HDFS层上方的结构化存储层,共享Hadoop的HDFS,可将数据存放于HDFS中。此外,Hbase进行数据存储和管理的基本单位是Reg1n,Hbase的一个表中可以包含一个或多个Reg1n,每个Reg1n只能由一个Reg1nServer提供服务,一个Reg1nServer可以为多个Reg1n提供服务,可以认为Reg1nServer是Hbase用于存储服务的节点;除了服务节点外,Hbase还具有主节点Hbase Master。在分布式环境下,Hbase数据库需要一个主节点Hbase Master和多个Reg1nServer服务节点并行工作。因此,建立在Hadoop集群上的Hbase共用组成Hadoop集群的计算机,从而将Hadoop作为名称节点NameNode的计算机作为Hbase的Master节点;并将Hadoop作为数据节点DataNode的计算机作为Hbase的Reg1nServer服务节点。
[0031]具体的,所述全文搜索服务器Solr具体为一个独立的企业级搜索应用服务平台,用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。在Hadoop集群上,所述Solr也共用组成Hadoop集群的计算机,从而将Hadoop作为名称节点NameNode的计算机作为Solr的主节点ResourceMaster;并将Hadoop作为数据节点DataNode的计算机作为Solr的服务节点SolrServer。与Hbase不同的是,Hbase将数据存放至Hadoop的HDFS中,Solr将索引数据直接存入组成集群的计算机的本地磁盘中。
[0032]具体的,所述分布式实时计算系统Storm具体是对海量数据通过流处理实时进行迭代的并行运算。运算的主要任务可以包括:数据入库、数据的删除、统计、比对、去重、关联、索引以及归一化等。由于Storm也是分布式的计算系统,也需要多个计算机组成Storm集群,所组成的Storm集群由一或两个主节点和多个从节点组成。主节点运行了一个名为“Nimbus”的守护进程,用于分配代码、布置任务及
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1