一种基于文件元数据的增量备份方法与流程

文档序号:12596753阅读:459来源:国知局

本发明涉及文件存储技术领域,尤其涉及一种基于文件元数据的增量备份方法。



背景技术:

近年来,数字信息是国际发展的大趋势所在,各国对数字信息化发展都极为重视,随着我国数字信息化进程的不断推进,数字信息呈现爆炸式增长的态势,数据占用空间越来越大,而在归档、备份等集中存储系统中,存在大量的冗余数据信息,研究发现,在存储系统中,保存的数据中有高达60%是冗余的,而且随着时间的推移越来越多,在这种情况下,消除重复数据,节省存储空间就成为了存储系统需要解决的关键问题。



技术实现要素:

基于背景技术存在的技术问题,本发明提出了一种基于文件元数据的增量备份方法。

本发明的技术方案是这样实现的:

一种基于文件元数据的增量备份方法,其特征在于,包括步骤:

S1,在目的盘建立一个当前需要备份文件的文件特征表A;

S2,在存储器中建立一个文件特征表B,记录曾经拷贝过的源盘文件的MD5码值;

S3,将待存储文件进行技术分块,计算分块后的元数据的MD5码值并记录在目的盘的文件特征表A中;

S4,比对文件特征表A和文件特征表B中的MD5码值,如果在文件特征表B中检索不到文件特征表A中的MD5码值,在存储器内进行元数据的复制备份,如果在文件特征表A中的MD5码值与文件特征表B中的MD5码值一致,则存储器中不进行元数据的备份;

S5,更新存储器中的文件特征表B。

优选的,S2中的文件特征表B记录的元数据的属性包括文件名称、文件尺寸、文件创建时间、文件修改时间、文件自定义元数据、文件存储路径中的几种或全部。

优选的,S3中的文件特征表A记录的元数据的属性包括文件名称、文件尺寸、文件创建时间、文件修改时间、文件自定义元数据、文件存储路径中的几种或全部。

优选的,S4中文件特征表A中的所有MD5码值均与文件特征表B中的MD5码值进行比对,比对完成后,文件特征表A中所有与文件特征表B中相同的元数据删除。

优选的,S3中采用CDC分块技术对待存储文件进行技术分块。

本发明中提到的MD5,是Message-Digest Algorithm5(消息摘要算法第五版)的简称,是Rivest于1991年对MD4的改进版本,作为当前计算机领域用于确保信息传输完整一致广泛使用的hash算法,主流编程语言普遍已有MD5的实现。MD5比MD4来得复杂,并且速度较之要慢一些,但更安全,在抗分析和抗差分方面表现更好。

它对输入以512位分组,经过计算流程,生成四个32位数据,最后将这四个值联合起来成为一个128-bits散列值。基本方式为:求余、取余、调整长度、与链接变量进行循环运算,得出结果。

本发明中S3采用的CDC分块技术的分块流程包括:

因为计算滑动窗口内容的Rabin指纹值函数足够离散,其值模D等r的概率的1/D,则从概率分析,每滑动D长度就有一次h模D的值为r,因此变长块的期望值为D,当然,这只是期望值,划分的元数据仍可能出现过大或者过小的情况,CDC分块技术将两个文件分割为完全相同的元数据,同时因为Rabin函数有着较好的字符串识别能力,当文件进行插入、删除或者修改操作时,除了变化点之后的少数断点需要重新划分,其他元数据的边界仍然不变,所以不会出现将文件进行一个小改动而分割成完全不同的元数据,从而找不到重复内容的情况。

本发明与现有技术相比较,具有的有益技术效果:

本发明采用的是一种基于文件元数据的的增量备份方式,首先在存储器中建立一个文件特征表B,用于记录记录曾经拷贝过的源盘文件的MD5码值,同时在目的盘建立一个文件特征表A,文件特征表A的属性与文件特征表B相同,采用CDC分块技术对待存储文件进行技术分块,计算分块后的元数据的MD5码值并记录到文件特征表A中,比对文件特征表A和文件特征表B中的MD5码值,如果在文件特征表B中检索不到文件特征表A中的MD5码值,在存储器内进行元数据的复制备份,如果在文件特征表A中的MD5码值与文件特征表B中的MD5码值一致,则存储器中不进行元数据的备份,最后,存储器中的文件特征表B进行更新,为下一次备份做准备,与传统技术相比较,增量备份方式可以帮助消除文件之间的重复数据,在更大程度上缩减数据占用空间,缓解存储系统的空间增长问题,最大程度地利用已有资源,降低存储成本。

附图说明

图1显示为本发明提出的一种基于文件元数据的的增量备份方式的具体实施例的流程方框示意图。

具体实施方式

下面结合具体实施例对本发明作进一步解说。

一种基于文件元数据的增量备份方法,S1,在目的盘建立一个当前需要备份文件的文件特征表A;S2,在存储器中建立一个文件特征表B,记录曾经拷贝过的源盘文件的MD5码值;S3,将待存储文件进行技术分块,计算分块后的元数据的MD5码值并记录在目的盘的文件特征表A中;S4,比对文件特征表A和文件特征表B中的MD5码值,如果在文件特征表B中检索不到文件特征表A中的MD5码值,在存储器内进行元数据的复制备份,如果在文件特征表A中的MD5码值与文件特征表B中的MD5码值一致,则存储器中不进行元数据的备份;S5,更新存储器中的文件特征表B,为下一次备份做准备。

本发明中提到的MD5,是Message-Digest Algorithm5(消息摘要算法第五版)的简称,是Rivest于1991年对MD4的改进版本,作为当前计算机领域用于确保信息传输完整一致广泛使用的hash算法,主流编程语言普遍已有MD5的实现。MD5比MD4来得复杂,并且速度较之要慢一些,但更安全,在抗分析和抗差分方面表现更好。

它对输入以512位分组,经过计算流程,生成四个32位数据,最后将这四个值联合起来成为一个128-bits散列值。基本方式为:求余、取余、调整长度、与链接变量进行循环运算,得出结果。

本发明中S3采用的CDC分块技术的分块流程包括:

因为计算滑动窗口内容的Rabin指纹值函数足够离散,其值模D等r的概率的1/D,则从概率分析,每滑动D长度就有一次h模D的值为r,因此变长块的期望值为D,当然,这只是期望值,划分的元数据仍可能出现过大或者过小的情况,CDC分块技术将两个文件分割为完全相同的元数据,同时因为Rabin函数有着较好的字符串识别能力,当文件进行插入、删除或者修改操作时,除了变化点之后的少数断点需要重新划分,其他元数据的边界仍然不变,所以不会出现将文件进行一个小改动而分割成完全不同的元数据,从而找不到重复内容的情况。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1