一种云备份方法及装置与流程

文档序号:12363265阅读:190来源:国知局
一种云备份方法及装置与流程

本发明涉及云计算技术领域,尤其涉及一种云备份方法及装置。



背景技术:

备份可以防止因系统出现操作失误或系统故障导致的数据丢失。而云备份则是备份的进一步升级,将数据备份从硬盘提升到云。云备份系统利用重复数据技术来删除那些用于多版本共享的副本块,通过数据重复,这些副本块被原来的块的引用所替代,而不是被上传到云端。在备份数据流中连续的块,被散乱地保存到几个不同的数据段,从而导致数据恢复的断裂。当用户想恢复最近版本的数据块时,相关的数据段将会被从云端下载,同时会夹杂一些不相关的数据段,从而影响数据恢复性能。

基于云备份系统的类似方案有基于传统的云备份系统的capping、CFL、CBR。受限于已设计好的备份方法,云备份系统无法对数据段进行分类识别、标识,一定程度上会导致相同的副本被备份多次,从而增加了备份数据量且提高备份消耗,同时,延长备份时间。



技术实现要素:

本发明实施例提出一种云备份方法及装置,能够降低备份数据量,且节约备份时间。

本发明实施例提供一种云备份方法,包括:

获取文件和所述文件的数据地址列表,并对所述文件进行更新;

将更新后的文件中的每个数据块识别为副本或新数据块;

计算每个副本占其所在数据段的长度比例,并将长度比例大于预设阈值的副本作为所述更新后的文件的相关数据块;

将所述新数据块写入所述相关数据块所在的数据段中,并将所述新数据块的地址及其所在的数据段的地址写入所述数据地址列表中;

将更新后的数据段和数据地址列表上传到云端进行备份。

进一步地,所述获取文件和所述文件的数据地址列表,并对所述文件进行更新,具体包括:

从云端下载所述文件的数据地址列表;

从所述数据地址列表中读取所述文件中的每个数据块的地址及其所在数据段的地址;

根据每个数据块所在数据段的地址从云端下载相应的数据段,根据每个数据块的地址从其所在的数据段中读取相应的数据块,并将读取的所有数据块构建为所述文件;

获取更新数据,并根据所述更新数据对所述文件中相应的数据块进行更新。

进一步地,所述计算每个副本占其所在数据段的长度比例,并将长度比例大于预设阈值的副本作为所述更新后的文件的相关数据块,具体包括:

分别计算每个副本占其所在数据段的长度比例,并判断所述长度比例是否大于预设阈值;

若是,则将所述副本作为所述文件的相关数据块;

若否,则将所述副本标记为碎片并丢弃。

进一步地,在所述计算每个副本占其所在数据段的长度比例,并将长度比例大于预设阈值的副本作为所述更新后的文件的相关数据块之前,还包括:

在检测到具有重复的副本时,保留原始的副本,删除重复的副本,并将所述数据地址列表中的所述重复的副本的地址指向所述原始的副本的地址。

相应地,本发明实施例还包括一种云备份装置,包括:

更新模块,用于获取文件和所述文件的数据地址列表,并对所述文件进行更新;

识别模块,用于将更新后的文件中的每个数据块识别为副本或新数据块;

相关数据块获取模块,用于计算每个副本占其所在数据段的长度比例,并将长度比例大于预设阈值的副本作为所述更新后的文件的相关数据块;

写入模块,用于将所述新数据块写入所述相关数据块所在的数据段中,并将所述新数据块的地址及其所在的数据段的地址写入所述数据地址列表中;以及,

备份模块,用于将更新后的数据段和数据地址列表上传到云端进行备份。

进一步地,所述更新模块具体包括:

下载单元,用于从云端下载所述文件的数据地址列表;

读取单元,用于从所述数据地址列表中读取所述文件中的每个数据块的地址及其所在数据段的地址;

文件构建单元,用于根据每个数据块所在数据段的地址从云端下载相应的数据段,根据每个数据块的地址从其所在的数据段中读取相应的数据块,并将读取的所有数据块构建为所述文件;以及,

文件更新单元,用于获取更新数据,并根据所述更新数据对所述文件中相应的数据块进行更新。

进一步地,所述相关数据块获取模块具体包括:

判断单元,用于分别计算每个副本占其所在数据段的长度比例,并判断所述长度比例是否大于预设阈值;

相关数据块获取单元,用于在所述判断单元判定为是时,将所述副本作为所述文件的相关数据块;

碎片标记单元,用于在所述判断单元判定为否时,将所述副本标记为碎片并丢弃。

进一步地,所述云备份装置还包括:

重复副本删除模块,用于在检测到具有重复的副本时,保留原始的副本,删除重复的副本,并将所述数据地址列表中的所述重复的副本的地址指向所述原始的副本的地址。

实施本发明实施例,具有如下有益效果:

本发明实施例提供的云备份方法及装置,能够在文件更新后,计算文件中的每个副本占其所在数据段的长度比例,并将长度比例大于预设阈值的副本识别为文件的相关数据块,进而将新数据块和相关数据块上传到云端进行备份,从而去除不相关的数据块,减少备份数据量,节约备份时间和备份的存储空间;对副本进行检测,保留原始的副本,删除重复的副本,并修改重复的副本的地址,进一步节约备份时间和存储空间。

附图说明

图1是本发明提供的云备份方法的一个实施例的流程示意图;

图2是本发明提供的云备份方法中的NED模块的运行流程图;

图3是本发明提供的云备份装置的一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见图1,是本发明提供的云备份方法的一个实施例的流程示意图,包括:

S1、获取文件和所述文件的数据地址列表,并对所述文件进行更新;

S2、将更新后的文件中的每个数据块识别为副本或新数据块;

S3、计算每个副本占其所在数据段的长度比例,并将长度比例大于预设阈值的副本作为所述更新后的文件的相关数据块;

S4、将所述新数据块写入所述相关数据块所在的数据段中,并将所述新数据块的地址及其所在的数据段的地址写入所述数据地址列表中;

S5、将更新后的数据段和数据地址列表上传到云端进行备份。

需要说明的是,在从云端获取原始的文件和该文件的数据地址列表后,对该文件进行更新,其中,数据地址列表中保存有该文件的每个数据块的地址及每个数据块所在数据段的地址。在文件更新后,对更新后的文件中的每个数据块进行识别,将每个数据块与其相应的原始的数据块进行对比,其中,相似度高的数据块识别为副本,即云端已备份过的数据块;相似度低的数据块识别为新数据块,即云端未备份的数据块。进而,将识别为副本的数据块全部输入到NED模块中,使NED模块查询数据地址列表中的每个副本的地址和每个副本所在数据段的地址计算每个副本占其所在数据段的长度比例,并将长度比例大于预设阈值的副本标记为相关数据块输出。将新数据块写入输出的相关数据块所在的数据段中,若数据段的空间不够,可新加一个数据段进行写入,同时,写相应的recipe(方法及数据明细),以将新数据块的地址及其所在数据段的地址写入该文件的数据地址列表中。最后,将写入更新后的数据段和数据地址列表上传到云端进行备份存储。本发明实施例通过阈值的比较去除一些不相干的数据块,从而在保证备份需求的同时减少数据备份的数量,节省备份过程对应用系统的资源消耗和时间消耗。

进一步地,所述获取文件和所述文件的数据地址列表,并对所述文件进行更新,具体包括:

从云端下载所述文件的数据地址列表;

从所述数据地址列表中读取所述文件中的每个数据块的地址及其所在数据段的地址;

根据每个数据块所在数据段的地址从云端下载相应的数据段,根据每个数据块的地址从其所在的数据段中读取相应的数据块,并将读取的所有数据块构建为所述文件;

获取更新数据,并根据所述更新数据对所述文件中相应的数据块进行更新。

需要说明的是,在对文件进行更新时,先从云端下载用户所需文件的数据地址列表,从数据地址列表中读取该文件中的每个数据块的地址和每个数据块所在数据段的地址,进而根据数据段的地址从云端下载相应的数据段,再根据数据块的地址从其相应的数据段中读取相应的数据块,读取的所有数据块即可构建用户所需的文件。在获取用户所需的文件后,接收用户对该文件的更新数据,并根据接收到的更新数据对该文件进行更新。

进一步地,所述计算每个副本占其所在数据段的长度比例,并将长度比例大于预设阈值的副本作为所述更新后的文件的相关数据块,具体包括:

分别计算每个副本占其所在数据段的长度比例,并判断所述长度比例是否大于预设阈值;

若是,则将所述副本作为所述文件的相关数据块;

若否,则将所述副本标记为碎片并丢弃。

需要说明的是,在所有副本输入NED模块后,NED模块进行相关数据段(segment reference ratio SRR)比率统计阶段和碎片阶段。其中,相关数据段比率是指副本在其所在的整个数据段中所占的长度比例,而统计阶段识别并标识出每个副本,将长度比例大于预设阈值的副本标记为相关数据块,将长度比列小于预设阈值的副本标记为碎片,碎片阶段整理出所有标记为碎片的数据块、提取数据块信息及输入的数据块内容。

查询数据地址列表,根据每个副本的地址获取每个副本的长度,根据每个副本所在数据段的地址获取每个副本所在数据段的长度,即可计算每个副本占其所在数据段的长度比例,获取相关数据段比率。其中,数据段的最大长度是固定的,一个数据段中包含有多个数据块,数据块的最大长度也是固定的。获取相关数据段比率后,即可识别并标识出相关数据块和碎片以便进行数据分割。

进一步地,在所述计算每个副本占其所在数据段的长度比例,并将长度比例大于预设阈值的副本作为所述更新后的文件的相关数据块之前,还包括:

在检测到具有重复的副本时,保留原始的副本,删除重复的副本,并将所述数据地址列表中的所述重复的副本的地址指向所述原始的副本的地址。

需要说明的是,在识别出每个副本并输入到NED模块中时,NED模块还会判断该副本是否为数据重复的副本,若是,则在其数据段中保留原始的副本,删除重复的副本,并在数据地址列表中的重复的副本地址上增加一个指向原始的副本的链接。删除数据段中重复的数据块,仅保留最原始的数据块,并给出原始的数据块的地址,进一步节省备份时间和备份存储空间(在宽带较低的网络环境中更为明显)。另外,在数据恢复时,可以避免相关于同一数据段的副本数据块被多次下载,减少了数据恢复时相关数据段的下载量,减少时间消耗,提高下载效率。

参见图2,是本发明提供的云备份方法中的NED模块的运行流程图,包括:

S21、判断输入是否结束。在识别出更新后的文件的副本后,将副本数据块通过接口依次输入至NED模块中。每输入一个数据块,则NED模块判断输入是否结束,若是,则执行步骤S24,若否,则执行步骤S22。

S22、判断数据块是否为重复数据。每输入一个数据块,则NED模块判断该数据块是否为重复的数据块,若是,则执行步骤S23,若否,则返回步骤S21。

S23、更新recipe和数据段。NED模块在检测出重复的数据块后,更新recipe(方法及数据明细),以在数据段中保留原始的数据块,删除重复的数据块,并在数据地址列表中的重复的数据块地址上增加一个指向原始的数据块的链接。

S24、读取数据块。

S25、判断数据块是否为副本。NED模块每读取一个数据块,则判断该数据块是否为副本,以对副本进行进一步确认,若是,则执行步骤S26,若否,在直接从NED模块中输出。

S26、计算SRR。计算该副本占其所在数据段的长度比例SRR。

S27、判断SRR是否大于阈值。判断该副本的SRR是否大于预设的阈值,若是,则说明该副本为相关数据块,直接从NED模块中输出,若否,则执行步骤S28。

S28、标为碎片。若该副本的SRR小于预设的阈值,则将该副本标记为碎片再从NED模块中输出。

本发明实施例提供的云备份方法,能够在文件更新后,计算文件中的每个副本占其所在数据段的长度比例,并将长度比例大于预设阈值的副本识别为文件的相关数据块,进而将新数据块和相关数据块上传到云端进行备份,从而去除不相关的数据块,减少备份数据量,节约备份时间和备份的存储空间;对副本进行检测,保留原始的副本,删除重复的副本,并修改重复的副本的地址,进一步节约备份时间和存储空间。

相应的,本发明还提供一种云备份装置,能够实现上述实施例中的云备份方法的所有流程。

参见图3,是本发明提供的云备份装置的一个实施例的结构示意图,包括:

更新模块1,用于获取文件和所述文件的数据地址列表,并对所述文件进行更新;

识别模块2,用于将更新后的文件中的每个数据块识别为副本或新数据块;

相关数据块获取模块3,用于计算每个副本占其所在数据段的长度比例,并将长度比例大于预设阈值的副本作为所述更新后的文件的相关数据块;

写入模块4,用于将所述新数据块写入所述相关数据块所在的数据段中,并将所述新数据块的地址及其所在的数据段的地址写入所述数据地址列表中;以及,

备份模块5,用于将更新后的数据段和数据地址列表上传到云端进行备份。

进一步地,所述更新模块具体包括:

下载单元,用于从云端下载所述文件的数据地址列表;

读取单元,用于从所述数据地址列表中读取所述文件中的每个数据块的地址及其所在数据段的地址;

文件构建单元,用于根据每个数据块所在数据段的地址从云端下载相应的数据段,根据每个数据块的地址从其所在的数据段中读取相应的数据块,并将读取的所有数据块构建为所述文件;以及,

文件更新单元,用于获取更新数据,并根据所述更新数据对所述文件中相应的数据块进行更新。

进一步地,所述相关数据块获取模块具体包括:

判断单元,用于分别计算每个副本占其所在数据段的长度比例,并判断所述长度比例是否大于预设阈值;

相关数据块获取单元,用于在所述判断单元判定为是时,将所述副本作为所述文件的相关数据块;

碎片标记单元,用于在所述判断单元判定为否时,将所述副本标记为碎片并丢弃。

进一步地,所述云备份装置还包括:

重复副本删除模块,用于在检测到具有重复的副本时,保留原始的副本,删除重复的副本,并将所述数据地址列表中的所述重复的副本的地址指向所述原始的副本的地址。

本发明实施例提供的云备份装置,能够在文件更新后,计算文件中的每个副本占其所在数据段的长度比例,并将长度比例大于预设阈值的副本识别为文件的相关数据块,进而将新数据块和相关数据块上传到云端进行备份,从而去除不相关的数据块,减少备份数据量,节约备份时间和备份的存储空间;对副本进行检测,保留原始的副本,删除重复的副本,并修改重复的副本的地址,进一步节约备份时间和存储空间。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1