一种基于云计算的海量数据处理系统的制作方法

文档序号:8905286阅读:655来源:国知局
一种基于云计算的海量数据处理系统的制作方法
【技术领域】
[0001]本发明涉及数据处理系统,更具体地,涉及一种基于云计算的海量数据处理系统。
【背景技术】
[0002]在云计算架构中的一个重要问题是如何设计一个高效的存储层来处理云计算平台上的海量数据。根据马上游云平台的设计,数据是自然的分布式管理和存储,即所有的数据由一个高速局域网连接成一个数据群。海量的数据是通过各种在云平台系统上面的应用生成,一个可能的数据存储及查询方法是使用一个集中的,关系数据库管理系统(DBMS)作为底层数据存储层。然而,我们看到几个这种方法的局限性,尤其是在分布式的系统下。
[0003]首先,中央数据库服务器很难实现系统中多个节点的负载平衡。
[0004]第二,很容易出现一个单点失败,即容错问题可能会对系统的功能构成威胁。
[0005]第三,它会产生非常严重的通信负载,因为分布在各个节点的数据必须通过基础网络传递到中央服务器。最后,这个模式难以实现并行处理,以利用云平台的计算优势架构。

【发明内容】

[0006]本发明的目的是为了解决上述现有技术方案所存在的缺陷,本发明提出了一种基于云计算的海量数据处理系统。
[0007]本发明所采用的技术方案是:
[0008]提供可扩展的分布式存储层,采用Hadoop系统,保持分布式的区域小群,然后,这些集群被视为一个更大的无共享集群中的节点,归Hadoop系统管理。每一个小簇节点被视为在Hadoop系统中的从属节点,其中二个主节点被指定为Hadoop系统的协调员。我们把这种设计称之为使用Hadoop的分布式数据仓库。我们把数据存储在分布式文件系统,HadoopDistributed File System(HDFS,并且设计应用需要的Map及Reduce功能,以适应和减少在云计算系统的中用户应用程序的计算量和通讯量。
[0009]这种分布式数据仓库是特别为云计算架构所设计的,因为它自然的提供了极好的负载平衡,容错功能,满足了分布式和并行处理的要求。例如,在我们的系统中能够自动处理分发计算需求到轻负载的节点。它利用数据重载的技术,因此,能够把一个失败节点正在执行的任务移植到其他正常节点继续计算工作。我们的系统的另一个吸引人的特点是,它可以大大减少系统的通信开销。我们的主要挑战是要设计好,实现个性化Map和Reduce的设计来减少通讯成本和整体计算成本(例如修剪不必要的节点访问和数据传输)。我们也整合传统的关系数据库管理系统到我们的Hadoop分布式数据仓库,尤其是在对结构化数据的处理。为此,我们一个有用的扩展是利用HadoopDB技术。每个从节点使用一个关系数据库管理系统作为其在本地的存储层实例,而不是仅仅依靠HDFS的。因此,它可以提供更好的效率在处理结构化数据的情况下(例如,使用一个索引结构在一个数据库管理系统,以加快访问本地数据)。
[0010]采用HBase作为我们的数据存储计算系统。HBase是一个开源项目支持随机,实时读/写访问大数据。它的目标是处理商用硬件集群之上的特大表-数十亿行及数百万列。
[0011]本发明的有益效果是,
[0012]本发明基于云计算的海量数据处理系统,
[0013]1、提供了极好的负载平衡,容错功能,满足了分布式和并行处理的要求;
[0014]2、可以大大减少系统的通信开销。
[0015]下面结合附图对本发明作进一步详细描述。
【附图说明】
[0016]图1为本发明的基于云计算的海量数据处理系统:数据存储及处理过程。
【具体实施方式】
[0017]为了加深对本发明的理解,下面结合附图和实施例对本发明作进一步详细的说明。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0018]本发明的具体实施例是,
[0019]如图1所示,提供可扩展的分布式存储层,采用Hadoop系统,保持分布式的区域小群,然后,这些集群被视为一个更大的无共享集群中的节点,归Hadoop系统管理。每一个小簇节点被视为在Hadoop系统中的从属节点,其中二个主节点被指定为Hadoop系统的协调员。我们把这种设计称之为使用Hadoop的分布式数据仓库。我们把数据存储在分布式文件系统,Hadoop Distributed File System(HDFS,并且设计应用需要的 Map 及 Reduce 功能,以适应和减少在云计算系统的中用户应用程序的计算量和通讯量。
[0020]这种分布式数据仓库是特别为云计算架构所设计的,因为它自然的提供了极好的负载平衡,容错功能,满足了分布式和并行处理的要求。例如,在我们的系统中能够自动处理分发计算需求到轻负载的节点。它利用数据重载的技术,因此,能够把一个失败节点正在执行的任务移植到其他正常节点继续计算工作。我们的系统的另一个吸引人的特点是,它可以大大减少系统的通信开销。我们的主要挑战是要设计好,实现个性化Map和Reduce的设计来减少通讯成本和整体计算成本(例如修剪不必要的节点访问和数据传输)。我们也整合传统的关系数据库管理系统到我们的Hadoop分布式数据仓库,尤其是在对结构化数据的处理。为此,我们一个有用的扩展是利用HadoopDB技术。每个从节点使用一个关系数据库管理系统作为其在本地的存储层实例,而不是仅仅依靠HDFS的。因此,它可以提供更好的效率在处理结构化数据的情况下(例如,使用一个索引结构在一个数据库管理系统,以加快访问本地数据)。
[0021]采用HBase作为我们的数据存储计算系统。HBase是一个开源项目支持随机,实时读/写访问大数据。它的目标是处理商用硬件集群之上的特大表-数十亿行及数百万列。
[0022]要说明的是,以上所述实施例是对本发明技术方案的说明而非限制,所属技术领域普通技术人员的等同替换或者根据现有技术而做的其他修改,只要没超出本发明技术方案的思路和范围,均应包含在本发明所要求的权利范围之内。
【主权项】
1.一种基于云计算的海量数据处理系统,其特征在于:包括Hadoop系统、分布式区域小群、主节点和分布式文件系统,分布式区域小群被视为一个更大的无共享集群中的节点,归Hadoop系统管理,主节点为Hadoop系统的协调员,数据存储于分布式文件系统中。2.根据权利要求1所述的基于云计算的海量数据处理系统,其特征在于:所述Hadoop系统中还包括MapReduce节点,以适应和减少在云计算系统的中用户应用程序的计算量和通讯量。
【专利摘要】本发明公开了一种基于云计算的海量数据处理系统,包括Hadoop系统、分布式区域小群、主节点和分布式文件系统,分布式区域小群被视为一个更大的无共享集群中的节点,归Hadoop系统管理,主节点为Hadoop系统的协调员,数据存储于分布式文件系统中。本发明提供了极好的负载平衡,容错功能,满足了分布式和并行处理的要求;可以大大减少系统的通信开销。
【IPC分类】G06F9/50, G06F17/30
【公开号】CN104881476
【申请号】CN201510296226
【发明人】陈勇, 胡中骥
【申请人】江苏马上游科技股份有限公司
【公开日】2015年9月2日
【申请日】2015年6月3日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1