基于PaaS平台的大数据处理方法

文档序号:7870165阅读:144来源:国知局
专利名称:基于PaaS平台的大数据处理方法
技术领域
本发明涉及通信技术领域,尤其涉及一种基于PaaS (Platform-as-a-Service,平台即服务)平台的大数据处理方法。
背景技术
人们在工作中随时都面临着海量数据的处理带来的挑战,例如机器日志、RFID(Radio Frequency Identification,无线射频识别)检测器、传感器网络、车载GPS(GlobalPositioning System,全球定位系统)和零售交易数据,所有这些都将使数据量显著增加。目前,在处理海量数据方面,比较成熟的技术有hadoop分布式技术。然而,hadoop受限于网络和10瓶颈,而且hadoop是基于现实的设备,随着集群的扩展和电脑性能配置的要求的提高,企业级的hadoop应用所耗费的成本开销较大。同时,hadoop的可扩展性和可靠性设计并不完美。当前的hadoop米用单一 Namenode和多个Datanode的架构,单一 Jobtracker的设计严重制约了整个hadoop的可扩展性和可靠性。首先,Namenode和Jobtracker是整个系统中明显的单点故障源(SP0F)。再次,单一 Namenode的内存容量有限,使得hadoop集群的节点数量被限制到2000个左右,能支持的文件系统大小被限制在10-50PB,最多能支持的文件数量大约为1. 5亿左右,实际数量取决于Namenode的内存大小,因此不得不为Namenode分配足够的内存。并且,在集中式的Namenode造成Datanode的blocks report(块报告),也会对Namenode的性能造成严重的影响。

发明内容
本发明实施例提出一种基于PaaS平台的大数据处理方法,能够解决hadoop集群单点故障源问题,提闻PaaS系统的稳定性和运行效率。
`
本发明实施例提供一种基于PaaS平台的大数据处理方法,包括
用户终端向PaaS平台服务器发送数据处理请求;其中,所述PaaS平台服务器上构建有多个Service服务器,每个Service服务器对应地与一个hadoop集群相关联;
所述PaaS平台服务器解析所述数据处理请求,向相应的Service服务器发送任务指
令;
所述Service服务器调用其对应的hadoop集群,去执行所述数据处理请求所对应的作
业;
所述hadoop集群完成作业后,将作业结果返回给所述Service服务器;
所述Service服务器将所述作业结果返回给所述PaaS平台服务器;
所述PaaS平台服务器根据所述作业结果,向所述用户终端返回服务响应。其中,所述hadoop集群包括一个主节点Namenode,以及和所述主节点Namenode相关联的至少一个从节点Datanode。所述PaaS平台服务器配置有基于面向服务架构的集成开源组件的服务引擎系统。所述Service服务器是所述PaaS平台服务器上的一个服务组件。
本发明实施例提供的基于PaaS平台的大数据处理方法,在PaaS平台服务器上构建多个Service服务器,每个Service服务器对应地与一个hadoop集群相关联,从而构建一种云的分布式并行计算架构,为用户提供数据处理服务。多个hadoop集群并行运作,即使有个别的hadoop集群的主节点NameNode出现Jobtracker崩溃,其他的hadoop集群也同样能够不受影响地继续作业,整个系统也不受影响,解决了 hadoop集群单点故障源问题。而且,采用多个hadoop集群并行运作的架构,可以减少每个hadoop集群中的从节点Datanode的数量,每个hadoop集群所要执行的任务量就相对减少,从而减轻hadoop集群的负担,降低数据传输受到IO限制的几率,提高系统的运行效率。


图1是本发明提供的基于PaaS平台的大数据处理系统的一个实施例的结构示意 图2是本发明提供的基于PaaS平台的大数据处理系统的工作流程示意 图3是本发明提供的基于PaaS平台的大数据处理方法的一个实施例的流程示意图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。参见图1,是本发明提供的基于PaaS平台的大数据处理系统的一个实施例的结构示意图。本发明实 施例在PaaS平台服务器I上构建有多个Service服务器,例如Service服务器11、Service服务器12和Service服务器13。每个Service服务器对应地与一个hadoop集群相关联,所述hadoop集群包括一个主节点Namenode,以及和所述主节点Namenode相关联的至少一个从节点Datanode。例如,如图1所示,Service服务器11对应的hadoop集群包括主节点21,以及与主节点21相关联的3个从节点。Service服务器12对应的hadoop集群包括主节点22,以及与主节点22相关联的3个从节点。Service服务器13对应的hadoop集群包括主节点23,以及与主节点23相关联的3个从节点。其中,PaaS平台服务器配置有基于面向服务架构的集成开源组件的服务引擎系统。PaaS平台服务器基于OSGi(Open Service Gateway Initiative)组件和CXF服务引擎,集成了 Web应用服务器和 WebService 容器,支持XML(Extensible Markup Language,可扩展标记语言)、S0AP (简单对象访问协议)和 WSDL (Web Services Description Language),并有可靠的和安全的消息支持,能方便地管理和使用WebService。PaaS平台服务器能动态地安装和卸载各种服务组件或者应用程序,允许创建高性能和可扩展的服务应用。PaaS平台服务器负责解析用户终端发来的Web应用请求,实现资源的存储和虚拟化配置,合理调度和负载均衡等功能。每一个Service服务器调用对应的hadoop集群去执行具体的作业,并将作业结果返回给PaaS平台服务器,再由PaaS平台服务器根据作业结果响应用户终端的Web应用请求。Service服务器是所述PaaS平台服务器上的一个服务组件,此服务组件可以动态地扩展或减少。其功能相当于一个服务器,Service服务器通过调用hadoop集群去执行作业,并将作业结果返回给PaaS平台服务器。每一个hadoop集群对应PaaS平台服务器上的一个Service服务器,hadoop集群分布在虚拟云端,可以动态地增加或减少。每一个hadoop集群具有分布式存储和计算的能力。hadoop集群包括一台主节点Namenode的主机、一台次节点Secondary Namenode的主机及多台从节点Datanode的主机构成。主节点Namenode在hadoop集群中起任务调度的作用,从节点Datanode起执行作业的作用,可以动态扩展任意多个从节点Datanode。参见图2,是本发明提供的基于PaaS平台的大数据处理系统的工作流程示意图。具体实施时,当用户终端向PaaS平台服务器I发送一项服务请求时,PaaS平台服务器I就向对应的Service服务器(例如Service服务器11和Service服务器12)发送相关的任务指令,每个Service服务器接收到任务指令后,调用其对应的hadoop集群去作业,hadoop集群完成作业后把作业结果返回给Service服务器,Service服务器再将作业结果返回给PaaS平台服务器1,PaaS平台服务器I再响应用户终端的相关请求。本发明实施例还提供一种基于PaaS平台的大数据处理方法,可应用于上述的基于PaaS平台的大数据处理系统。参见图3,是本发明提供的基于PaaS平台的大数据处理方法的一个实施例的流程示意图。本实施例提供一种基于PaaS平台的大数据处理方法,包括以下步骤` SI,用户终端向PaaS平台服务器发送数据处理请求;其中,所述PaaS平台服务器上构建有多个Service服务器,每个Service服务器对应地与一个hadoop集群相关联。S2,所述PaaS平台服务器解析所述数据处理请求,向相应的Service服务器发送任务指令。S3,所述Service服务器调用其对应的hadoop集群,去执行所述数据处理请求所对应的作业。S4,所述hadoop集群完成作业后,将作业结果返回给所述Service服务器。S5,所述Service服务器将所述作业结果返回给所述PaaS平台服务器。S6,所述PaaS平台服务器根据所述作业结果,向所述用户终端返回服务响应。其中,所述hadoop集群包括一个主节点Namenode,以及和所述主节点Namenode相关联的至少一个从节点Datanode。所述PaaS平台服务器配置有基于面向服务架构的集成开源组件的服务引擎系统。所述Service服务器是所述PaaS平台服务器上的一个服务组件。本发明实施例提供的基于PaaS平台的大数据处理方法,具有以下有益效果
(I)、在PaaS平台服务器上构建多个Service服务器,每个Service服务器对应地
与一个hadoop集群相关联,从而构建一种云的分布式并行计算架构,为用户提供数据处理服务。多个hadoop集群并行运作,即使有个别的hadoop集群的主节点NameNode出现Jobtracker崩溃,其他的hadoop集群也同样不受影响地继续作业,整个系统也不受影响,解决了 hadoop集群单点故障源问题。
(2)、以Web服务的方式调用hadoop集群来运作,使hadoop集群运行在云终端上,使得客户端任务操作更加方便。PaaS平台采用多个hadoop集群并行运作的架构,每个hadoop集群所要执行的任务量就相对减少,从而减轻hadoop集群的负担,这样每个hadoop集群很快就得到计算结果返回,加快了系统的运行效率。(3)、本发明以分布式集群的方式将hadoop的集群规模减少,使得每个hadoop集群中的从节点Datanode的数量减少,从而减轻hadoop集群的负担,更加利于数据在集群之间传输,提高数据传输效率。而且降低了数据传输受到IO限制的几率,10之间瓶颈得到解决。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random AccessMemory, RAM)等。以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护 范围。
权利要求
1.一种基于PaaS平台的大数据处理方法,其特征在于,包括 用户终端向PaaS平台服务器发送数据处理请求;其中,所述PaaS平台服务器上构建有多个Service服务器,每个Service服务器对应地与一个hadoop集群相关联; 所述PaaS平台服务器解析所述数据处理请求,向相应的Service服务器发送任务指令; 所述Service服务器调用其对应的hadoop集群,去执行所述数据处理请求所对应的作业; 所述hadoop集群完成作业后,将作业结果返回给所述Service服务器; 所述Service服务器将所述作业结果返回给所述PaaS平台服务器; 所述PaaS平台服务器根据所述作业结果,向所述用户终端返回服务响应。
2.如权利要求1所述的基于PaaS平台的大数据处理方法,其特征在于,所述hadoop集群包括一个主节点Namenode,以及和所述主节点Namenode相关联的至少一个从节点Datanode0
3.如权利要求1或2所述的基于PaaS平台的大数据处理方法,其特征在于,所述PaaS平台服务器配置有基于面向服务架构的集成开源组件的服务引擎系统。
4.如权利要求3所述的基于PaaS平台的大数据处理方法,其特征在于,所述Service服务器是所述PaaS平台服务器上的一个服务组件。
全文摘要
本发明公开了一种基于PaaS平台的大数据处理方法,该方法包括用户终端向PaaS平台服务器发送数据处理请求;PaaS平台服务器上构建有多个Service服务器,每个Service服务器对应地与一个hadoop集群相关联;PaaS平台服务器解析所述数据处理请求,向相应的Service服务器发送任务指令;所述Service服务器调用其对应的hadoop集群,去执行所述数据处理请求所对应的作业;所述hadoop集群将作业结果返回给所述Service服务器;所述Service服务器将作业结果返回给PaaS平台服务器;PaaS平台服务器根据所述作业结果向用户终端返回服务响应。本发明实施例能够解决hadoop集群单点故障源问题,提高PaaS系统的稳定性和运行效率。
文档编号H04L29/08GK103067486SQ20121057147
公开日2013年4月24日 申请日期2012年12月26日 优先权日2012年12月26日
发明者邓宏栋 申请人:广州杰赛科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1