一种基于虚拟共享目录的大数据备份方法与流程

文档序号:16247007发布日期:2018-12-11 23:40阅读:157来源:国知局
一种基于虚拟共享目录的大数据备份方法与流程

本发明属于数据备份技术领域,特别是涉及到一种提升大数据备份效率的大数据备份方法。

背景技术

大数据时代数据的价值更加关键,运行在大数据上的数据的安全性需要的以保障,那么就需要一种较快速、较通用的备份技术来实现各类大数据平台数据备份,并保证备份效率和兼容性。

目前,针对于大数据数据备份的方法一般遵循如下架构,该架构包括如下几部分:备份代理(即agent)、介质服务器、存储介质

具体实现的细节上可大致分为如下两种:

(1)客户端agent→http→介质服务器→iscsi→存储介质

备份代理安装在待备份端的大数据主机上,将备份数据收集起来,通过网络http协议将数据传输到介质服务器上,介质服务往往单独部署,收集来自于各个备份agent的数据,进行去重和压缩后,通过iscsi接口将数据传输存储到存储介质上(如disk)。

(2)客户端agent→http→介质服务器→http→存储介质

备份代理安装在待备份端的大数据主机上,将备份数据收集起来,通过网络http协议将数据传输到介质服务器上,介质服务单独部署,收集来自于各个备份agent的数据,进行去重和压缩后,通过http接口将数据传输存储到存储介质上(如objectstorage)。

现有技术(1)中,针对于不同的备份对象都需要对应的采集客户端,并且需要agent将数据从真实数据源(如hadoopnamenode),传输到本地一个暂存目录(该主机上),而后再将该目录下的数据通过切块处理(如每次一个64k数据块),继而每个数据块通过http协议传输到介质服务器端,介质服务器接收后,经过一系列的去重和压缩处理后,将通过iscsi协议将数据通过fc网络传输到专门的存储介质中(如disk),整个过程数据经过4个关键的耗时步骤(即agent本地暂存、本地切换、网络传输到介质服务器、介质服务器网络传输到存储介质),数据备份的效率难以得到保证,而且过多的环节也增大了系统的运行风险;

相比技术(1),不同的是,在数据传输到介质服务器的之后,并非将数据直接通过iscsi协议传输到存储介质,而是通过http协议再次切块,将数据通过http协议传到对象存储中(objectstorage中),技术(2)相比技术(1)来说仅仅是后端内存储协议不同,整体的存储效率和风险并没有有效的规避,同时针对于多类型大数据平台的采集同样需要开发对应的客户端代理agent,备份系统的复杂性和兼容性仍然没有得到提升。因此现有技术当中亟需要一种新型的技术方案来解决这一问题。



技术实现要素:

本发明所要解决的技术问题是:提供一种基于虚拟共享目录的大数据备份方法,提升了异构大数据平台下的数据备份系统的兼容性,并且简化了大数据平台备份系统的备份过程以及提升备份效率。

一种基于虚拟共享目录的大数据备份方法,其特征是:包括以下步骤,

步骤一、建立一个包括大数据平台、备份介质层、介质服务层以及存储介质的虚拟共享数据存储备份系统;

步骤二、大数据平台向系统发起备份需求,备份介质层将网络文件介质nfsagent远程挂载在大数据平台上,为大数据平台提供一个基于网络文件nfs协议的虚拟共享目录,将数据暂存到nfsagent的内部目录;

步骤三、备份介质层提供的nfsagent完成暂存后,断开虚拟共享链接,大数据平台的数据归属于备份介质层;

步骤四、备份介质层进行数据处理后,将nfsagent发送至存储介质,大数据平台的数据在存储介质中保留;

步骤五、大数据平台发起恢复数据请求,备份介质层对应在存储介质上的数据,通过nfsagent建立一个共享虚拟目录,发送至介质服务层;

步骤六、通过介质服务层,将nfsagent再次挂载到大数据平台,大数据平台获得数据的文件级别访问权限;

步骤七、大数据平台将数据恢复到生产环境中,进行数据的恢复操作,基于虚拟共享目录的大数据备份完成。

所述存储介质为真实存储数据的实体终端设备,内部可自动分区,用于同时备份一个以上大数据平台的数据存储。

所述备份介质层用于nfsagent对应的数据接收层与存储介质进行适配,进行数据暂存和处理。

通过上述设计方案,本发明可以带来如下有益效果:一种基于虚拟共享目录的大数据备份方法,提升了异构大数据平台下的数据备份系统的兼容性,并且简化了大数据平台备份系统的备份过程以及提升备份效率。

本发明可以带来如下进一步有益效果:本发明通过两次远程挂载实现虚拟共享目录的创建,简化了现有备份软件多次处理传输带来的复杂性,并提高了备份恢复的效率;

本发明的远程挂载技术采用nfs协议支持,通用的文件协议,可以适配各类大数据平台,无需传统备份软件多类客户端的,提高了大数据平台数据备份的兼容性。

附图说明

以下结合附图和具体实施方式对本发明作进一步的说明:

图1为本发明一种基于虚拟共享目录的大数据备份方法流程示意框图。

具体实施方式

一种基于虚拟共享目录的大数据备份方法,其特征是:包括以下步骤,

步骤一、建立一个包括大数据平台、备份介质层、介质服务层以及存储介质的虚拟共享数据存储备份系统;

步骤二、大数据平台向系统发起备份需求,备份介质层将网络文件介质nfsagent远程挂载在大数据平台上,为大数据平台提供一个基于网络文件nfs协议的虚拟共享目录,将数据暂存到nfsagent的内部目录;

步骤三、备份介质层提供的nfsagent完成暂存后,断开虚拟共享链接,大数据平台的数据归属于备份介质层;

步骤四、备份介质层进行数据处理后,将nfsagent发送至存储介质,大数据平台的数据在存储介质中保留;即在存储介质上通过远程挂载方式提供虚拟共享目录,至此则实现了备份数据在存储介质的落盘持久化,即共享目录作为存储,在存储介质处保留,且当此时其他大数据平台需要备份时,则在存储介质处划分新的分区,用于新备份数据的存储;

步骤五、大数据平台发起恢复数据请求,备份介质层对应在存储介质上的数据,通过nfsagent建立一个共享虚拟目录,发送至介质服务层;

步骤六、通过介质服务层,将nfsagent再次挂载到大数据平台,大数据平台获得数据的文件级别访问权限;

步骤七、大数据平台将数据恢复到生产环境中,进行数据的恢复操作,基于虚拟共享目录的大数据备份完成。

本发明通过在介质服务器上的本地存储,对外提供文件共享协议接口,将建一个虚拟的共享目录,如将该接口提供给需要备份的大数据平台a,那么大数据平台a需要备份时,则在本地挂载该分区,即可得到该虚拟目录的共享权,备份完毕后,断开分区,该分区即可回退到介质服务器,同时向另外的一个存储类服务器提供共享目录服务,通过文件复制,非常简明的实现了大数据文件的备份。

恢复的过程和备份正好相反,只不过是两次数据共享的顺序不同而已。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1