一种面向aws平台的分布式数据管理方法

文档序号:6625784阅读:538来源:国知局
一种面向aws平台的分布式数据管理方法
【专利摘要】本发明公开一种面向AWS平台的分布式数据管理方法,属于信息技术处理领域。本方法公开了面向AWS(AmazonWebServices亚马逊网络服务系统)平台,进行快速且廉价的数据分布方法。本发明明确了基于AWS所提供的EC2(ElasticComputeCloud弹性计算云)和EBS(ElasticBlockStorage弹性块存储)服务,采用集中式数据划分与分配、并行配对挂载、存储与处理服务分离等手段,实现了在大规模集群内进行批量快速的数据导入准备,同时在集群计算资源被回收后,实现低成本的数据存储与复用,从而将集群数据的准备时间与费用成本降到最低。
【专利说明】—种面向AWS平台的分布式数据管理方法
[0001]

【技术领域】
[0002]本发明涉及一种面向AWS平台的分布式数据管理方法,属于信息技术处理领域。

【背景技术】
[0003]AffSCAmazon Web Services亚马逊网络服务系统)是由亚马逊公司于2002年开始运营的云计算平台,提供多种类型的远端Web服务。其中的EC2 (Elastic Compute Cloud弹性计算云)服务可以让用户以租用虚拟计算机(实例)方式,远程使用不同类型的计算机系统,并且运行任何自己所需要的软件。租用虚拟计算机的价格随提供的硬件资源多少而区分,并且用户可以随时创建、运行和终止服务,因此AWS EC2被视为一个灵活的、相对廉价的云计算平台。EBS (Elastic Block Storage弹性块存储)服务亦是由AWS提供的,用于支持持久性数据块级存储需求。EBS卷组独立于EC2实例的生命周期,通过网络驱动伪装成块设备的方式使其能够成为任意实例的虚拟存储设备,并可在实例终止后继续存在,实现数据复用。AWS同时提供了 S3 (Simple Storage Service)服务来进行网络数据存储,但其更适用于静态的数据存储,S3设备可以转换为EBS卷组来进行使用。
[0004]由于受到AWS自身服务的限制,在利用申请大量EC2实例组建计算机集群时,实例内的EBS卷组资源在实例被暂停或终止后即被收回,相应地存储在EBS卷组内的数据也会同时丢失。
[0005]针对这一问题,常见的解决方法是待集群建立完毕后,再利用主实例进行数据的导入与分布。在这一过程中,其它实例因为没有参与到实际的数据处理过程当中,处于被动等待状态,因此造成了大量计算资源的浪费。
[0006]最后,当集群被终止后,产生的并行数据结果也需要再收集到额外的EBS或S3设备中去,同样造成了 AWS资源的浪费。
[0007]因此,这种EC2实例内部EBS的不稳定性,造成了在大规模实例集群是进行数据分布与保存的技术难点。
[0008]目前,也没有公开发表的技术或手段来对此问题加以解决。


【发明内容】

[0009]发明目的:针对现有技术中存在的问题与不足,本发明提供一种面向AWS平台的分布式数据管理方法。首先采用集中式的数据划分与分配,利用一台EC2实例来完成所有的数据分布任务,降低了整体AWS资源的使用。其次通过并行配对挂载的方法,将大量实例资源与已分配数据的EBS卷组进行配对挂载,快速构建起可用的计算机集群。最后待处理任务结束后,统一卸载外部挂载的EBS卷组,达到了计算资源与存储设备的分离,在不消耗额外计算与存储资源的前提下实现了数据复用的目的。
[0010]技术方案:一种面向AWS平台的分布式数据管理方法,包括如下步骤: 步骤1,创建单台实例并挂载大量小容量EBS卷组,实现大数据的划分与分配,具体方法为:
步骤1-1,依据卷组标签扫描所需EBS卷组ID,采用循环模式分配存储设备名称,在实例外部利用EC2命令行工具进行挂载后向实例提交所有设备名;
步骤1-2,实例内部创建所有挂载文件路径并赋予相应权限,与接收到的存储设备进行系统级别挂载;
步骤1-3,利用用户自定义方法对集群数据进行划分,并对应转移到相应的小容量存储设备中去;
步骤2,创建全部集群实例,与得到数据分配后的EBS卷组进行并行匹配挂载;
步骤2-1,依据资源标签扫描可用的EBS卷组与集群实例ID,利用循环模式进行配对挂载后,对每一实例上传分配的存储设备名;
步骤2-2,并行访问所有实例,创建挂载文件路径并赋予读写权限,在系统级别挂载设备;
步骤3,待计算任务结束后,对存储服务与计算服务进行分离,卸载所有EBS卷组并终止集群实例,将并行数据结果单独存留在EBS卷组中。
[0011]以上
【发明内容】
中所述的EC2命令行工具是指由AWS EC2服务提供的,通过文本命令方式来运行服务的脚本;所述EBS卷组是指由AWS提供的,具有独立生命周期的网络存储设备,可以与EC2实例通过网络驱动的方式的连接,来提供持久性的数据块级存储。每个EBS卷组与EC2实例,都具有惟一的ID编号,并可通过添加标签的方式来进行语义上的区分。
[0012]本发明采用上述技术方案,具有以下有益效果:
1、方法在集群建立之前就可利用一台EC2实例来完成所有的数据分布任务,显著降低了整体AWS的资源消耗;
2、待集群创建后,方法采用并行配对挂载的方法,可将所需数据快速分布到整个集群系统内,提高了数据分布准备的效率;
3、存储有并行处理结果数据的EBS卷组,可以在处理任务结束后,继续持久保存,以极低的成本达到了数据复用的目的。

【专利附图】

【附图说明】
[0013]图1为本发明实施例的面向AWS平台的分布式数据的划分与配置流程图。

【具体实施方式】
[0014]下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0015]利用面向AWS平台的分布式数据管理方法进行并行处理系统的数据分配与并行挂载的最小对象为一台设置有EC2命令行工具的可联网的计算机设备和一个可以有效申请AWS各类资源的Amazon账号。
[0016]在对数据进行分布管理之前,需要进行预处理,具体操作如下:检测当前计算机系统内是否准备有EC2命令行工具,工具均为可执行的系统脚本,以“ec2_”为命名前缀,也可通过命令如“ec2-describe_reg1ns”来进行实地验证,此命令用于打印所有可用的EC2数据中心名称;检测当前计算机内是否存在AWS EC2账户私有密钥,如不存在,则可通过访问EC2图形化网页界面来获取。
[0017]通过上述预处理后,即可按照图1所示的流程图,实现面向AWS平台的分布式数据的划分与配置流程,包括以下步骤:
步骤1,利用EC2命令行工具或AWS提供的网页控制终端,启动一台EC2实例与若干小容量EBS卷组,卷组的数量由用户自行定义并添加描述标签(如“data”),用以实现大数据的划分与分配,具体方法为:
步骤1-1,利用EC2命令行工具中的“ec2-describe-volumes”,依据卷组标签扫描所需EBS卷组ID,采用循环模式分配存储设备名称,在实例外部利用EC2命令行工具进行挂载后向实例提交所有设备名,设备名称一般由“sd”开头,加上f-p之间单个字母,以及由1-15内的数字;
步骤1-2,实例内部创建所有挂载文件路径并赋予相应权限,利用mount指令与接收到的存储设备进行系统级别挂载;
步骤1-3,导入大数据后,利用用户自定义的划分方法对数据进行分割,并将相应需要的文件--拷贝入挂载后的小容量EBS卷组内;
步骤1-4,卸载所有已分配数据的EBS卷组;
步骤2,利用EC2命令行工具或AWS提供的网页控制终端来创建大量EC2实例,来构建计算机集群,并与步骤2中产生的EBS卷组进行并行匹配挂载,具体方法为:
步骤2-1,依据资源标签扫描可用的EBS卷组与集群实例ID,利用EC2命令行工具中的“ec2-describe_instances,,以及 “ec2-describe_volumes,,,
步骤2-2,利用EC2命令行工具“ec2-attach_volume ”,基于循环模式对实例与卷组进行配对挂载,对每一实例上传分配的存储设备名,每个终端在保证设备名称惟一性的前提下可以获得一个或多个卷组,匹配后的设备名被上传至实例中的特定文件“/tmp/.matchedVolumes,,;
步骤2-3,并行访问所有实例,上传集群内加密传输的密钥,得以从控制端在无需密码下的情况下远程访问所有相关实例;
步骤2-4,在每个实例中,创建挂载文件路径并赋予读写权限,读取上传的卷组匹配文件并利用mount指令在系统级别对相关设备进行挂载。
[0018]步骤3,待计算任务结束后,对存储服务与计算服务进行分离,卸载所有EBS卷组并终止集群实例,将并行数据结果单独存留在EBS卷组中。
【权利要求】
1.一种面向AWS平台的分布式数据管理方法,其特征在于,利用集中式数据分配与批量式数据挂载的方式来进行大规模集群数据准备,包括如下步骤: 步骤1,创建单台实例并挂载大量小容量EBS卷组,实现大数据的划分与分配; 步骤2,创建全部集群实例,与得到数据分配后的EBS卷组进行并行匹配挂载; 步骤3,待计算任务结束后,对存储服务与计算服务进行分离,卸载所有EBS卷组并终止集群实例,将并行数据结果单独存留在EBS卷组中。
2.根据权利要求1所述的一种面向AWS平台的分布式数据管理方法,其特征在于,步骤I的数据分配,具体步骤为: 步骤1-1,依据卷组标签扫描所需EBS卷组ID,采用循环模式分配存储设备名称,在实例外部利用EC2命令行工具进行挂载后向实例提交所有设备名; 步骤1-2,实例内部创建所有挂载文件路径并赋予相应权限,与接收到的存储设备进行系统级别挂载; 步骤1-3,利用用户自定义方法对集群数据进行划分,并对应转移到相应的小容量存储设备中去。
3.根据权利要求1所述的一种面向AWS平台的分布式数据管理方法,其特征在于步骤2的并行配对挂载,具体步骤为: 步骤2-1,依据资源标签扫描可用的EBS卷组与集群实例ID,利用循环模式进行配对挂载后,对每一实例上传分配的存储设备名; 步骤2-2,并行访问所有实例,创建挂载文件路径并赋予读写权限,在系统级别挂载设备。
【文档编号】G06F17/30GK104243564SQ201410444864
【公开日】2014年12月24日 申请日期:2014年9月3日 优先权日:2014年9月3日
【发明者】陆佳民, 冯钧 申请人:河海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1