一种数据平台系统的扩展方法、系统及电子设备与流程

文档序号:11147525阅读:564来源:国知局
一种数据平台系统的扩展方法、系统及电子设备与制造工艺

本发明涉及计算机通信及互联网、软件管理后台技术领域,特别是涉及一种数据平台系统的扩展方法、系统及电子设备。



背景技术:

近几年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长,动辄数百TB甚至数十至数百PB规模的行业/企业大数据已远远超出了现有传统的计算技术和信息系统的处理能力,因此,寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。

鉴于大数据处理需求的迫切性和重要性,近年来大数据技术已经在全球学术界、工业界和各国政府得到高度关注和重视,全球掀起了一个可与20世纪90年代的信息高速公路相提并论的研究热潮。美国和欧洲一些发达国家政府都从国家科技战略层面提出了一系列的大数据技术研发计划,以推动政府机构、重大行业、学术界和工业界对大数据技术的探索研究和应用。

大数据的处理需要大量的硬件支撑,没有硬件支撑就没有大数据的各种数据分析管理。当数据量呈现几何量级的增长,如果硬件不能快速的部署变为大数据的节点,就无法满足日常系统的使用情况。如何快速部署大数据系统,方便地增加大数据服务器的节点数量,是亟待解决的一重要课题。



技术实现要素:

鉴于以上所述现有技术的缺点,本发明的目的在于提供一种数据平台系统的扩展方法、系统及电子设备,用于快速地将硬件设备部署为大数据处理系统中的计算节点,从而为大数据的分析和管理提供硬件支撑。

为实现上述目的及其他相关目的,本发明提供一种数据平台系统的扩展方法,应用于所述数据平台系统,其中,所述数据平台系统包括:所述管理节点、及与所述管理节点通信连接的至少一个数据节点,所述方法包括:所述管理节点向待添加数据节点发送用于配置系统环境的脚本文件,以供所述待添加数据节点执行所述脚本文件后完成相应的系统环境设置;所述管理节点为所述待添加数据节点安装相关应用,从而完成所述待添加数据节点向所述数据平台系统的添加。

于本发明一实施例中,所述数据平台系统的类型包括:CDH系统。

于本发明一实施例中,所述脚本文件的内容包括:安装执行所述脚本文件的命令的工具编译包、编辑所述待添加数据节点的名称、关闭安全设置、安装常用软件包、开启ntp时间服务并加入自动启动项、修改swappiness以降低对swap缓存的使用、安装CDH系统运行环境及语言环境、强制刷新、及重启所述待添加数据节点中的一种或多种组合。

于本发明一实施例中,所述为待添加数据节点安装相关应用,包括:添加CDH管理员账号、开启CDH客户端服务、进行所述待添加数据节点的功能安装、及开启所述待添加数据节点的计算功能中的一种或多种组合。

于本发明一实施例中,所述至少一个数据节点分别关联有与其一一对应的至少一个预设负荷值,在所述向待添加的数据节点发送脚本文件之前,所述方法还包括:获取所述至少一个数据节点的实际负荷值,并分别与对应的预设负荷值比对;若检测到存在实际负荷值不小于预设负荷值的数据节点,则开始扩展所述数据平台系统。

为实现上述目的及其他相关目的,本发明提供一种数据平台系统的扩展系统,应用于所述数据平台系统,其中,所述数据平台系统包括:所述管理节点、及与所述管理节点通信连接的至少一个数据节点,所述系统包括:脚本发送模块,用于所述管理节点向待添加数据节点发送用于配置系统环境的脚本文件,以供所述待添加数据节点执行所述脚本文件后完成相应的系统环境设置;应用安装模块,用于所述管理节点为所述待添加数据节点安装相关应用,从而完成所述待添加数据节点向所述数据平台系统的添加。

于本发明一实施例中,所述数据平台系统的类型包括:CDH系统。

于本发明一实施例中,所述脚本文件的内容包括:安装执行所述脚本文件的命令的工具编译包、编辑所述待添加数据节点的名称、关闭安全设置、安装常用软件包、开启ntp时间服务并加入自动启动项、修改swappiness以降低对swap缓存的使用、安装CDH系统运行环境及语言环境、强制刷新、及重启所述待添加数据节点中的一种或多种组合。

于本发明一实施例中,所述为待添加数据节点安装相关应用,包括:添加CDH管理员账号、开启CDH客户端服务、进行所述待添加数据节点的功能安装、及开启所述待添加数据节点的计算功能中的一种或多种组合。

于本发明一实施例中,所述至少一个数据节点分别关联有与其一一对应的至少一个预设负荷值,所述系统还包括:比对模块,用于在所述向待添加的数据节点发送脚本文件之前:获取所述至少一个数据节点的实际负荷值,并分别与对应的预设负荷值比对;若检测到存在实际负荷值不小于预设负荷值的数据节点,则向所述脚本发送模块发送开始扩展所述数据平台系统的指令。

为实现上述目的及其他相关目的,本发明提供一种电子设备,包括如上任一所述的数据平台系统的扩展系统。

如上所述,本发明的数据平台系统的扩展方法、系统及电子设备,具有以下有益效果:

1)节省时间:传统的节点服务器添加需要在图形界面添加,步骤繁琐,安装等待时间长,报错信息少,如果一旦遇到错误,此节点需要重新安装系统才能被再次添加;本发明采用脚本方式快速扩充节点计算服务器,节约时间和成本,满足日益庞大的海量数据处理需求;

2)数据可靠:使用命令行添加节点服务器,经验证,几乎可以排除所有人为错误,添加上去的节点稳定,能够快速并入CDH系统提供计算;

3)系统故障率低:成熟命令行脚本,添加节点服务器,提前定义好系统的基础环境,变量,规避了图形化界面添加未考虑到的方面,使计算节点发生系统故障的几率大大降低。

附图说明

图1显示为本发明一实施例的CDH系统结构示意图。

图2显示为本发明一实施例的数据平台系统的扩展方法流程图。

图3显示为本发明一实施例的脚本内容示意图。

图4显示为本发明一实施例的数据平台系统的扩展系统模块图。

图5显示为本发明一实施例的包括扩展系统的电子设备示意图。

元件标号说明

4 数据平台系统的扩展系统

400 比对模块

401 脚本发送模块

402 应用安装模块

5 电子设备

S201~S202 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。

本发明提供一种数据平台系统的扩展方法,该数据平台系统包括管理节点及与其通信连接的数据节点。例如,该数据平台系统为图1所示的CDH(Cloudera’s Distribution Including Apache Hadoop)系统,该CDH系统基于Apache协议,基于Apache Hadoop和相关project开发,100%开源,可以做批量处理,交互式SQL查询和及时查询,基于角色的权限控制等,是企业中使用最广的Hadoop分发版本。在该CDH系统中,NameNode为管理节点,用于接收HDFS Client的数据处理需求,并将该数据处理任务分配至各个DataNode数据节点,各个DataNode数据节点并行计算,并把计算结果从写入的Disk磁盘反馈至HDFS Client。此外,该CDH系统还可以包括与NameNode管理节点通信连接的Secondary NameNode,该Secondary NameNode主要用于定时地对NameNode管理节点中的数据进行备份,以防NameNode管理节点崩溃后会发生数据丢失。以下将详细介绍该CDH系统中的几个重要功能模块:

1)HDFS:CDH应用程序中主要的分布式储存系统,HDFS集群包含了一个NameNode(管理主节点),这个节点负责管理所有文件系统的元数据及存储了真实数据的DataNode(数据节点,可以有很多)。HDFS针对海量数据设计,传统文件系统实现对大批量小文件的优化,HDFS则实现对小批量大型文件的访问和存储的优化。

2)Hive:Apache Hive是Hadoop的一个数据仓库系统,促进了数据的综述(将结构化的数据文件映射为一张数据库表)、即席查询以及存储在Hadoop兼容系统中的大型数据集分析。Hive提供完整的SQL查询功能——HiveQL语言,同时,当使用这个语言表达一个逻辑变得低效和繁琐时,HiveQL还允许传统的Map/Reduce程序员使用自己定制的Mapper和Reducer进行表达。Hive类似CloudBase,基于hadoop分布式计算平台上的提供data warehouse的SQL功能的一套软件,使得存储在hadoop里面的海量数据的汇总、即席查询简单化。

3)Zookeeper:Google中Chubby的一个开源实现,是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

4)CDH主机项:即图1中的每个数据计算节点。主机的多少、配置、质量决定着此套CDH系统的优劣,质量越高,处理数据的能力越强。在1主3从的CDH架构中,包括了一个管理节点、3个被管理的数据节点,所有的日志分析、数据处理都会通过主节点分配给这3个数据节点。

以下将以CDH系统为例,详细阐述本发明的实现过程。优选的,该CDH系统中的管理节点采用linux服务器,由于linux为开源的,不仅能兼容市场上几乎所有的系统,还不会产生任何系统上的花费,相比于系统费高昂的windows等服务器,大大降低了开销成本。此外,该CDH系统采用HDFS分布式文件系统进行海量数据存储,能够提供高吞吐量的数据访问,使用1/6的成本就可以是实现原来6倍的性能,以满足每天进行千万级的海量用户的日常运营数据分析和用户行为挖掘。再有,该CDH系统采用完全互联网化的关联系统技术,即系统完全基于C/S技术架构,CDH系统分为Server与Agent两部分及数据库,Agent为客户端负责执行服务端发来的命令,执行方式一般为使用python调用相应的服务shell脚本,有利于实现:管理监控集群主机、统一管理配置、管理维护Hadoop平台系统等操作。如图2所示,本发明的扩展方法应用于该CDH系统,主要包括以下步骤:

步骤S201:所述管理节点向待添加数据节点发送用于配置系统环境的脚本文件,以供所述待添加数据节点执行所述脚本文件后完成相应的系统环境设置。如图3所示,该脚本文件的内容可以包括:安装执行所述脚本文件的命令的工具编译包、编辑所述待添加数据节点的名称、关闭安全设置、安装常用软件包、开启ntp时间服务并加入自动启动项、修改swappiness以降低对swap缓存的使用、安装CDH系统运行环境及语言环境、强制刷新、重启所述待添加数据节点等等,其具体内容可以根据实际功能需要预先编写、添加。

需要说明的是,所述待添加数据节点的服务器硬件是适合于CDH系统使用的,并且,所述待添加数据节点安装有Linux服务器操作系统。由于操作系统安装完成后,系统处于空白状态,基本上无法使用,一般需要手动安装基础软件环境来支持CDH的快速部署。相比于常规的在安装环境下一条一条执行命令,本发明采用脚本(如shell脚本)的方式,只需要通过执行此脚本就能自动实现需要的全部功能,从而实现系统基础环境的快速设置。

步骤S202:所述管理节点为所述待添加数据节点安装相关应用,从而完成所述待添加数据节点向所述数据平台系统的添加。也就是说,具体的,服务器基础环境通过脚本执行安装完成后,就要开始对CDH节点进行添加的操作,以下将以步骤a)~d)为例,详细说明在新添加的数据节点服务器上安装相关应用的详细内容:

步骤a):useradd--system--home=/opt/cm-5.5.1/run/cloudera-scm-server/--no-create-home--shell=/bin/false--comment"Cloudera SCM User"cloudera-scm#添加cdh管理员账号;

步骤b):/opt/cm-5.5.1/etc/init.d/cloudera-scm-agent start#打开cdh客户端服务;

步骤c):./hdfs dfsadmin-refreshNodes#执行命令进行新节点服务器功能安装;

步骤d):./hadoop-daemon.sh start datanode#新节点安装完毕开启节点计算功能。

至此,在hadoop CDH大数据系统中快速添加计算节点服务器的过程结束。

特别的,在一实施例中,在保证CDH系统不宕机、让数据能够正常、安全地运行的基础上,还考虑到资源成本的开销,本发明的方法还包括:在步骤S201执行之前,对CDH系统中已有的数据节点分别设置预设负荷值,并对其实际负荷值进行监控。这里,负荷的内容可以包括:负载情况、磁盘使用情况、物理内存使用情况等。例如,负荷为磁盘使用情况,则对应的负荷值可以包括:磁盘IO利用率、磁盘等待时间、磁盘平均队列长度、磁盘服务时间、磁盘等待读取/等待写入时间、磁盘读取/写入吞吐量等具体数值。当检测到有数据节点的实际负荷值超过或等于相应的预设负荷值时,开始执行步骤S201,即开始向CDH系统中添加新的数据节点,从而满足实际数据处理的需要。

请参阅图4,与上述方法实施例原理相似的是,本发明提供一种数据平台系统的扩展系统4,作为一套软件实现,搭载于包括管理节点、及与其通信连接的至少一个数据节点的数据平台系统,例如:CDH系统,从而实现在该数据平台系统中添加数据节点的扩展功能。由于前述实施例中的技术特征可以应用于本系统实施例,因而不再重复赘述。

所述系统4包括:脚本发送模块401、应用安装模块402。

脚本发送模块401的功能在于令所述管理节点向待添加数据节点发送用于配置系统环境的脚本文件,以供所述待添加数据节点执行所述脚本文件后完成相应的系统环境设置,其中,所述脚本文件的内容可以包括:安装执行所述脚本文件的命令的工具编译包、编辑所述待添加数据节点的名称、关闭安全设置、安装常用软件包、开启ntp时间服务并加入自动启动项、修改swappiness以降低对swap缓存的使用、安装CDH系统运行环境及语言环境、强制刷新、及重启所述待添加数据节点中的一种或多种组合。

应用安装模块402的功能在于令所述管理节点为所述待添加数据节点安装相关应用,详细的,可以包括:添加CDH管理员账号、开启CDH客户端服务、进行所述待添加数据节点的功能安装、开启所述待添加数据节点的计算功能中的一种或多种组合,从而完成所述待添加数据节点向所述数据平台系统的添加。

在一实施例中,所述系统4还包括:比对模块400,所述至少一个数据节点分别关联有与其一一对应的至少一个预设负荷值,在所述脚本发送模块向待添加的数据节点发送脚本文件之前,所述比对模块获取所述至少一个数据节点的实际负荷值,并分别与对应的预设负荷值比对;若检测到存在实际负荷值不小于预设负荷值的数据节点,则向所述脚本发送模块401发送开始扩展所述数据平台系统的指令。

请参阅图5,与上述方法、系统实施例原理相似的是,本发明提供一种包括如上任一所述的数据平台系统的扩展系统4的电子设备5,例如,包括通信单元(无线通信模块、有线通信模块等)、处理单元(CPU芯片等)等部件的服务器,由于前述实施例中的技术特征可以应用于本系统实施例,因而不再重复赘述。

综上,本发明使用命令行脚本方式在数据平台系统中快速添加数据节点,能比传统图形化添加节点的方式节省三分之二以上的时间,且错误率可以降低99%,不论要将多少台服务器添加为CDH系统的计算节点,只需要统一执行一个脚本就能完成,从而快速支持大数据的并行计算能力,且不耽误团队其它人员使用该CDH系统,有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1