一种快速去重的文件数据复制方法

文档序号:6341106阅读:358来源:国知局
专利名称:一种快速去重的文件数据复制方法
技术领域
本发明涉及一种数据复制方法,特别涉及一种快速去重的文件数据复制方法。
技术背景
对于现有的文件数据复制方法主要有两种一种是对整体文件进行去重,另一种 是对文件内部数据块进行去重。前者是指针对整体文件去重算法进行的改进。传统的算法 叫做完全文件检测(whole file detection,WFD)WFS技术是以文件为粒度查找重复数据, 首先对整个文件进行指纹计算(hash计算),然后将该值与已存储的其他文件的hash值进 行比较,如果检测到相同的值,则仅将文件用指针替换,如果不同则将整个文件进行传送, 后者,将文件拆分为更小的数据段,对数据段的内容进行指纹计算,然后对每个段进行指纹 对比,检测出内容相同的数据段,重复的段只传送指针,不同的数据段传输该数据段的全部 内容。与前者相比,实际传送的数据量决定于备份或复制间隔内所产生的数据变化量,因 此,比前者所需要传输的数据量要少很多。然而其文件对比所需要的检测时间确是相同的, 均为对所有文件的所有内容进行比对检测。
然而,对于某些文件,经处理前后的内容完全一样,然而其指纹信息确发生了变 化,如果只对全文件进行指纹计算,来确定前后是否一致,进而来决定是否对全文件进行复 制,很可能造成具有完全一样内容的文件被再次传输,增加了传输的负载,也没有达到去复 的目的。如果对于一些本来就没有被修改过的文件来说,采用上述数据段去复的方法进行 去重复制,那么需要将该文件分成若干段,将每段内容指纹计算,然后将每个数据段的指纹 进行对比,最终确定复制策略,这样一来,大大增加了对文件内容一致性的检测时间。另外, 即便文件内容有改动,然而,对于一些行业来说,比如影视行业,IT业等他们需要定期复制 的文件数量很大,且单一文件大小也很大,通常被修改的部分较大,且被修改的位置在文件 中的分布也不一定,比如,经大量修改后的内容存在于整个文件的中部或末尾,如果采用现 有技术中上述数据段去重的方法的去重文件数据复制方法,对文件数据的进行备份,需要 对所有的内容进行对比,因此,很多没有修改的信息都被提取出进行对比,其前期的检测时 间大大增加了,使复制的效率大大降低,更严重的甚至会造成工业生产的停滞,进而造成较 大的经济损失。发明内容
为此,本发明要解决的技术问题在于,提出一种能够显著减少重复文件数据检测 时间,又能很好地保证重复性文件检测精度的,高效的快速去重的文件数据复制方法。
为此,本发明的一种快速去重的文件数据复制方法,包括
指纹获取步骤
在对存储介质中的第一目标文件进行第一次全文件复制到目标文件目录下以前, 处理器对所述第一目标文件的元数据信息进行指纹计算形成IDl文件,和对所述第一目标 文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID2文件,并将所述IDl文件和所述ID2文件存储在数据库中; 在对所述第一目标文件进行第一次全文件复制到所述目标文件目录下以后,并在 对所述存储介质中的第二目标文件进行复制到所述目标文件目录下以前,处理器对所述第 二目标文件元数据信息进行指纹计算形成ID3文件,和对所述第二目标文件根据预定间隔 尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID4文件,并将所述ID3文件和 所述ID4文件存储在数据库中;指纹对比和文件复制执行步骤将所述IDl文件与所述ID3文件进行对比若所述IDl文件与所述ID3文件相同,则无需将所述第二目标文件复制到所述目 标文件目录下;若所述IDl文件与所述ID3文件不相同,且所述ID2文件与所述ID4文件相同,则 传输所述ID3文件更新所述第一目标文件相应的元数据;若所述IDl文件与所述ID3文件不相同,且所述ID2与所述ID4文件不相同,则将 所述第二目标文件全文件复制到所述目标文件目录下。上述的文件数据复制方法,所述第一目标文件的元数据信息包括所述第一目标文 件的按特定顺序组合而成的文件名、文件类型、文件大小和文件最后修改时间;所述第二目 标文件的元数据信息包括所述第二目标文件的文件名、文件类型、文件大小和文件最后修 改时间。上述的文件数据复制方法,所述指纹计算为Rabin计算、MD5计算、SHA-I计算、 SHA-224 计算、SHA-256 计算、SHA-384 和 SHA-512 计算中的一种。上述的文件数据复制方法,所述预定间隔尺度为512B-5KB ;上述的文件数据复制方法,其特征在于通过间隔提取的文件数据段大小为 512-2KB。上述的文件数据复制方法,所述第一目标文件的元数据信息还包括所述第一目标 文件的父目录信息和层次信息,所述第二目标文件的元数据信息还包括所述第二目标文件 的父目录信息和层次信息。上述的文件数据复制方法,在每一次复制步骤完成后对备份文件分配同一个版本 号,作为文件恢复的索引。上述的文件数据复制方法,所述预定间隔尺度为1KB。上述的文件数据复制方法,所述间隔提取的文件数据段大小为1KB。上述文件数据复制方法,所述文件类型包括压缩文件类、音视频文件类、图像文 件类、可执行文件类、文档类和数据文件类中的一种或几种。本发明具有以下优点1、快速去重的文件数据复制方法包括在对存储介质中的第一目标文件进行第一 次全文件复制到目标文件目录下以前,处理器对所述第一目标文件的元数据信息进行指纹 计算形成IDl文件,和对所述第一目标文件根据预定间隔尺度间隔提取其若干文件数据段 的内容进行指纹计算形成ID2文件,并将所述IDl文件和所述ID2文件存储在数据库中; 在对所述第一目标文件进行第一次全文件复制到所述目标文件目录下以后,并在对所述存 储介质中的第二目标文件进行复制到所述目标文件目录下以前,处理器对所述第二目标文件元数据信息进行指纹计算形成ID3文件,和对所述第二目标文件根据预定间隔尺度间隔 提取其若干文件数据段的内容进行指纹计算形成ID4文件,并将所述ID3文件和所述ID4 文件存储在数据库中;将所述IDl文件与所述ID3文件进行对比;若所述IDl文件与所述 ID3文件相同,则无需将所述第二目标文件复制到所述目标文件目录下;若所述IDl文件与 所述ID3文件不相同,则将所述ID2文件与所述ID4文件进行对比,若所述ID2文件与所述 ID4文件相同,则传输所述ID3文件更新所述第一目标文件相应的元数据,若所述ID2与所 述ID4文件不相同,则将所述第二目标文件全文件复制到所述目标文件目录下。以上处理 过程在备份文件即第一目标文件和待备份文件即第二目标文件的元数据相同的情况下,只 需要对比他们的元数据信息,无需对比其实质内容,由于元数据信息的数据量很小,因此其 检测时间大大提高了,另外,当备份文件和待备份文件元数据相同的情况下,将备份文件经 预定间隔尺度间隔提取的内容经过指纹计算的ID2文件和将待备份文件经预定间隔尺度 间隔提取的内容经过指纹计算的ID4文件进行对比判断其相同性,由于在备份文件即第一 目标文件和待备份文件即第二目标文件元数据不相同的情况下,它们的文件实质内容也有 可能相同,通过间隔提取内容计算指纹用于指纹对比,可以快速发现分布于文件不同位置 的修改处,无须对所有内容进行对比即可发生文件是否被修改过,可以大大减小其对比的 时间,最终保证了相同文件数据的去重,又大大提高文件数据复制的效率。
2.通常情况下,对于一些大文件,其修改部分较多,且修改部分在文件中所处的位 置又不一定,采用间隔尺度为512B-5KB可以较好的减少对文件相似度检测的时间,间隔提 取的数据段大小为512-2KB能较好地提高检测准确度。
3.间隔尺度为1KB,间隔提取的数据段大小为1KB,既可以大大减少对大文件相似 度检测的时间,又可以很好地确保检测精度。
4.在每一次复制步骤完成后对备份文件分配同一个版本号,作为文件恢复的索 引,其中每次文件恢复时都以最高的版本号为恢复索引,可以确保每次文件恢复时都将最 新的文件内容进行恢复。


为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合 附图,对本发明作进一步详细的说明。
图1为快速去重的文件复制方法的流程图;具体实施方式
如图1所示的,一种快速去重的文件数据复制方法,包括
指纹获取步骤
在对存储介质中的第一目标文件进行第一次全文件复制到目标文件目录下以前, 处理器对所述第一目标文件的元数据信息进行指纹计算形成IDl文件,和对所述第一目标 文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID2文件,并 将所述IDl文件和所述ID2文件存储在数据库中。
在对所述第一目标文件进行第一次全文件复制到所述目标文件目录下以后,并在 对所述存储介质中的第二目标文件进行复制到所述目标文件目录下以前,处理器对所述第二目标文件元数据信息进行指纹计算形成ID3文件,和对所述第二目标文件根据预定间隔 尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID4文件,并将所述ID3文件和 所述ID4文件存储在数据库中。
其中,IDl是第一元数据经过指纹计算产生的一个字符串,而ID2是若数据段内容 经过指纹计算产生的一个组合字符串。
指纹对比和文件复制执行步骤
将所述IDl文件与所述ID3文件进行对比;若所述IDl文件与所述ID3文件相同, 则无需将所述第二目标文件复制到所述目标文件目录下;若所述IDl文件与所述ID3文件 不相同,则将所述ID2文件与所述ID4文件进行对比,若所述ID2文件与所述ID4文件相同, 则传输所述ID3文件更新所述第一目标文件相应的元数据,若所述ID2与所述ID4文件不 相同,则将所述第二目标文件全文件复制到所述目标文件目录下。
其中,所述第一目标文件的元数据信息包括所述第一目标文件的按特定顺序组合 而成的文件名、文件类型、文件大小和文件最后修改时间;所述第二目标文件的元数据信息 包括所述第二目标文件的文件名、文件类型、文件大小和文件最后修改时间。所述指纹计算 为 Rabin 计算、MD5 计算、SHA-I 计算、SHA-2M 计算、SHA-256 计算、SHA-384 和 SHA-512 计 算中的一种。所述预定间隔尺度为512B-5KB,最优选为1KB ;通过间隔提取的文件数据段大 小为512-2KB,最优选为1KB ;所述第一目标文件的元数据信息还包括所述第一目标文件的 父目录信息和层次信息,所述第二目标文件的元数据信息还包括所述第二目标文件的父目 录信息和层次信息。上述文件数据复制方法,所述文件类型包括压缩文件类、音视频文件 类、图像文件类、可执行文件类、文档类和数据文件类中的一种或几种。
具体文件类型包括
压缩文件类*. arc*, cab*, ddi压缩文件,diskdupe的压缩文件,可由hd-copy还 Hi.氺· Ice,氺· zip,氺· gz,氺· tar
ii^^kSCi^^x.氺· avi,氺· cmf,氺· fli,氺· ins,氺· m3u,氺· mp3,氺· mov氺· mpeg,氺· vol, 氺.wav,氺.swf ;
图像文件类*. bmp, bgi Borland公司的图形界面文件cda, cd文件icn,氺· ico,氺· iff,氺· jpg,氺· Ibm,氺· pbm,氺· pgm,氺· png,氺· caj,氺· tif ;
:氺· doc,氺· fmt,氺· fnt,氺· mbd,氺· wps,氺· xls ;
ηΤ Α^Τ^^^Ι 氺· com,氺· dll,氺· drv,氺· exe,氺· fox,氺· fxp,氺· frm,氺· obj ;
数据文件类*. dat, dbf, idx, img, mem, ndx ;
当需要将多个文件同时复制到所述目标文件目录下时,已存在在所述目标文件目 录下的文件为所述第一目标文件,待复制到所述目标文件目录下的文件为第二目标文件。
实施例2
一种快速去重的文件数据复制方法,包括
指纹获取步骤
在对存储介质中的第一目标文件进行第一次全文件复制到目标文件目录下以前, 处理器对所述第一目标文件的元数据信息进行指纹计算形成IDl文件,和对所述第一目标 文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID2文件,并 将所述IDl文件和所述ID2文件存储在数据库中。
在对所述第一目标文件进行第一次全文件复制到所述目标文件目录下以后,并在对所述存储介质中的第二目标文件进行复制到所述目标文件目录下以前,处理器对所述第 二目标文件元数据信息进行指纹计算形成ID3文件,和对所述第二目标文件根据预定间隔 尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID4文件,并将所述ID3文件和 所述ID4文件存储在数据库中。其中,IDl是第一元数据经过指纹计算产生的一个字符串,而ID2是若数据段内容 经过指纹计算产生的一个组合字符串。指纹对比和文件复制执行步骤将所述IDl文件与所述ID3文件进行对比;若所述IDl文件与所述ID3文件相同, 则将所述第二目标文件全文件复制到所述目标文件目录下;若所述IDl文件与所述ID3文 件不相同,则将所述ID2文件与所述ID4文件进行对比,若所述ID2文件与所述ID4文件相 同,则传输所述ID3文件更新所述第一目标文件相应的元数据,若所述ID2与所述ID4文件 不相同,则将所述第二目标文件全文件复制到所述目标文件目录下。其中,所述第一目标文件的元数据信息包括所述第一目标文件的按特定顺序组合 而成的文件名、文件类型、文件大小和文件最后修改时间;所述第二目标文件的元数据信息 包括所述第二目标文件的文件名、文件类型、文件大小和文件最后修改时间。所述指纹计算 为 Rabin 计算、MD5 计算、SHA-I 计算、SHA-224 计算、SHA-256 计算、SHA-384 和 SHA-512 计 算中的一种。所述预定间隔尺度为512B-5KB,最优选为1KB ;通过间隔提取的文件数据段大 小为512-2KB,最优选为1KB ;所述第一目标文件的元数据信息还包括所述第一目标文件的 父目录信息和层次信息,所述第二目标文件的元数据信息还包括所述第二目标文件的父目 录信息和层次信息。上述文件数据复制方法,所述文件类型包括压缩文件类、音视频文件 类、图像文件类、可执行文件类、文档类和数据文件类一种或几种。具体文件类型包括压缩文件类*. arc*, cab*, ddi压缩文件,diskdupe的压缩文件,可由hd-copy还 Hi.*· Ice,*· zip,*· gz,*· tar音视频文件类*· avi,*· cmf,*· fli,*· ins,*· m3u,*· mp3,*· mov*· mpeg,*· vol, *.wav,*.swf ;图像文件类*. bmp, *· bgi Borland公司的图形界面文件*· cda, cd文件*· icn,
*· ico,*· iff,*· jpg,*· Ibm,*· pbm,*· pgm,*· png,*· caj,*· tif ;文档类 *· doc,*· fmt,*· fnt,*· mbd,*· wps,*· xls ;可执行文件类 *· com,*· dll,*· drv,*· exe,*· fox,*· fxp,*· frm,*· obj ;数据文件类 :*· dat, dbf, idx, img, mem, ndx ;在每一次复制步骤完成后对备份文件分配同一个版本号,作为文件恢复的索引, 其中每次文件恢复时都以最高的版本号为恢复索引。当需要将多个文件同时复制到所述目标文件目录下时,已存在在所述目标文件件 目录下的文件为所述第一目标文件,待复制到所述目标文件目录下的文件为第二目标文 件。显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对 于所属领域的普通技术人员来说,在上述说明的基础上还可以根据设备的大小不同做出其它不同形式的变化 或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出 的显而易见的变化或变动仍处于本发明创造的保护范围之中。
权利要求
1.一种快速去重的文件数据复制方法,其特征在于包括指纹获取步骤在对存储介质中的第一目标文件进行第一次全文件复制到目标文件目录下以前,处理 器对所述第一目标文件的元数据信息进行指纹计算形成IDl文件,和对所述第一目标文件 根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID2文件,并将所 述IDl文件和所述ID2文件存储在数据库中;在对所述第一目标文件进行第一次全文件复制到所述目标文件目录下以后,并在对所 述存储介质中的第二目标文件进行复制到所述目标文件目录下以前,处理器对所述第二目 标文件元数据信息进行指纹计算形成ID3文件,和对所述第二目标文件根据预定间隔尺度 间隔提取其若干文件数据段的内容进行指纹计算形成ID4文件,并将所述ID3文件和所述 ID4文件存储在数据库中;指纹对比和文件复制执行步骤将所述IDl文件与所述ID3文件进行对比若所述IDl文件与所述ID3文件相同,则无需将所述第二目标文件复制到所述目标文 件目录下;若所述IDl文件与所述ID3文件不相同,且所述ID2文件与所述ID4文件相同,则传输 所述ID3文件更新所述第一目标文件相应的元数据;若所述IDl文件与所述ID3文件不相同,且所述ID2与所述ID4文件不相同,则将所述 第二目标文件全文件复制到所述目标文件目录下。
2.根据权利要求1所述的文件数据复制方法,其特征在于所述第一目标文件的元数 据信息包括所述第一目标文件的按特定顺序组合而成的文件名、文件类型、文件大小和文 件最后修改时间;所述第二目标文件的元数据信息包括所述第二目标文件的文件名、文件 类型、文件大小和文件最后修改时间。
3.根据权利要求2所述的文件数据复制方法,其特征在于所述指纹计算为Rabin计 算、MD5计算、SHA-I计算、SHA-2M计算、SHA-256计算、SHA-384和SHA-512计算中的一种。
4.根据权利要求1-3任一所述的文件数据复制方法,其特征在于所述预定间隔尺度 为 512B-5KBo
5.根据权利要求4所述的文件数据复制方法,其特征在于通过间隔提取的文件数据 段大小为512-2KB。
6.根据权利要求5所述的文件数据复制方法,其特征在于所述第一目标文件的元数 据信息还包括所述第一目标文件的父目录信息和层次信息,所述第二目标文件的元数据信 息还包括所述第二目标文件的父目录信息和层次信息。
7.根据权利要求6所述的文件数据复制方法,其特征在于在每一次复制步骤完成后 对备份文件分配同一个版本号,作为文件恢复的索引。
8.根据权利要求7所述的文件数据复制方法,其特征在于所述预定间隔尺度为1KB。
9.根据权利要求8所述的文件数据复制方法,其特征在于所述间隔提取的文件数据 段大小为1KB。
10.根据权利要求9所述文件数据复制方法,其特征在于所述文件类型包括压缩文 件类、音视频文件类、图像文件类、可执行文件类、文档类和数据文件类中的一种或几种。
全文摘要
本发明的一种快速去重的文件数据复制方法,包括在对存储介质中的第一目标文件进行第一次全文件复制到目标文件目录下以前,处理器对所述第一目标文件的元数据信息进行指纹计算形成ID1,和对所述第一目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID2,对所述第二目标文件元数据信息进行指纹计算形成ID3,和对所述第二目标文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID4;将所述ID1与所述ID3进行对比;若所述ID1与所述ID3相同,则无需复制;若所述ID1与所述ID3不相同,且所述ID2与所述ID4相同,则更新所述第一目标文件的元数据,若所述ID2与所述ID4不相同,则将所述第二目标文件全文件进行复制。
文档编号G06F17/30GK102033962SQ20101062007
公开日2011年4月27日 申请日期2010年12月31日 优先权日2010年12月31日
发明者朱立谷, 李强 申请人:中国传媒大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1