适用于工作负载保护系统的重复数据删除方法

文档序号:6422928阅读:161来源:国知局
专利名称:适用于工作负载保护系统的重复数据删除方法
技术领域
本发明涉及重复数据删除方法,尤其涉及适用于工作负载保护系统的重复数据删除方法。
背景技术
现有的重复数据删除方法的删除速度慢,影响了工作效率。

发明内容
为了解决现有技术中重复数据删慢的问题,本发明提供了一种适用于工作负载保护系统的重复数据删除方法。本发明提供了一种适用于工作负载保护系统的重复数据删除方法,包括如下步骤
A 对所有已存储文件进行预处理,并建立数据结构; B 通过预处理数据结构实现待存储文件与已存储文件进行匹配; C 判断待存储文件是否为重复数据,如果待存储文件是重复数据,那么不必将待存储文件保存至备份系统,如果待存储文件不是重复数据,那么将待存储文件保存至备份系统中。作为本发明的进一步改进,在所述步骤A中还包括如下步骤
Al.对已存储文件中的字符串进行抽取,将抽取的字符串组成布尔表达式,且每个已存储文件均对应一个布尔表达式,所有的布尔表达式组成布尔表达式集合; A2.将所有布尔表达式所包括的字符串进行提取组成字符串集合; A3.根据布尔表达式集合和字符串集合构建数据结构。作为本发明的进一步改进,在所述步骤A3中包括如下步骤
A31.构建布尔表达式集合中的布尔表达式与字符串集合中的字符串的关联关系; A32.根据布尔表达式集合及字符串集合确定跳跃表及哈希表大小,并构建入口哈希函数hi和h2;
A33.根据字符串集合构建跳跃表,并确定跳跃表的跳跃距离; A34.根据字符串集合构建哈希表;
A35.为每个布尔表达式构建计数器,并将计数器初始化为零。作为本发明的进一步改进,在所述步骤B中包括如下步骤 Bi.读取待存储文件的首个等长字节;
B2.判断待存储文件的全部字节是否读取完毕,如果未读取完毕那么执行B3步骤,如果读取完毕那么执行Cl步骤;
B3.那么根据入口哈希函数hl,计算跳跃表入口地址,找到跳跃表对应项;
B4.判断跳跃值是否为0,如果不为0那么执行步骤B5,如果为0那么执行步骤B6 ;
B5.该步骤包括如下步骤B51.跳跃对应值;
B52.读取待存储文件的下一个等长字节; B53.执行B2步骤; B6.根据入口哈希函数h2,计算哈希入口地址;
B7.判断是否链接字符串,如果无链接,那么执行B52步骤和B53步骤,如果有链接,那么执行B8步骤;
B8.找到全部哈希表链接字符串,判断是否匹配;
B9.判断是否匹配,如果匹配,那么执行BlO步骤,如果不匹配,那么执行B52步骤和 B53步骤;
B10.逐个处理匹配字符串;
Bll.判断是否第一次匹配,如果是第一次匹配,那么执行B12步骤,如果不是第一次匹配,那么执行BlO步骤;
B12.包含此字符串的布尔表达式的计数器加1 ; B13.执行B52步骤和B53步骤。作为本发明的进一步改进,所以步骤C包括如下步骤
Cl.根据布尔表达式包含的字符串个数及布尔表达式的计数器值,得出匹配布尔表达式集合;
C2.判断是否有匹配,如果有匹配,那么执行C3步骤,如果无匹配,那么该待存储文件是新文件,将待存储文件存储至备份系统中;
C3.判断匹配布尔表达式集合是否处理完,如果全部处理完,那么该待存储文件是新文件,将待存储文件存储至备份系统中,如果未处理完,那么执行C4步骤; C4.找到该条布尔表达式代表的已存储文件;
C5,判断文件大小是否一致,如果一致,那么执行C6步骤,如果不一致,那么执行C3步
骤;
C6.判断文件内容是否一致,如果一致,那行执行C7步骤,如果不一致,那么执行C3步
骤;
C7.该待存储文件与备份系统中某文件属于重复数据,不保存该待存储文件。作为本发明的进一步改进,在所述步骤Al中,根据每个已存储文件大小,从每个已存储文件中抽取5至15段等长字符串。作为本发明的进一步改进,在所述步骤Al中,从每个已存储文件的开头、中间、结尾的随机位置分别抽取32字节长的字符串。本发明的有益效果是本发明的方法通过对全部已存储文件进行预处理构建数据结构,基于此对待存储文件与经预处理的已存储文件进行匹配,然后判断待存储文件是否为重复数据,如果待存储文件是重复数据,那么不必将待存储文件保存至备份系统,如果待存储文件不是重复数据,那么将待存储文件保存至备份系统中,可以对数十万级规模的文件进行并发比较处理,提高了重复数据判断速度速度,提高了系统保护工作效率。


图1是本发明的方法流程图。
图2是本发明的一实施例的流程图。图3是本发明的另一实施例的流程图。图4是本发明的又一实施例的流程图。
具体实施例方式如图1所示,本发明公开了一种适用于工作负载保护系统的重复数据删除方法, 包括如下步骤步骤W1,对所有已存储文件进行预处理,并建立数据结构。步骤W2,通过预处理数据结构实现待存储文件与已存储文件进行匹配。步骤W3,判断待存储文件是否为重复数据,如果待存储文件是重复数据,那么不必将待存储文件保存至备份系统,如果待存储文件不是重复数据,那么将待存储文件保存至备份系统中。如图2所示,作为本发明的一个实施例,该步骤W3包括如下步骤步骤K1,对已存储文件中的字符串进行抽取,将抽取的字符串组成布尔表达式,且每个已存储文件均对应一个布尔表达式,所有的布尔表达式组成布尔表达式集合。步骤K2,将所有布尔表达式所包括的字符串进行提取组成字符串集合。步骤K3,根据布尔表达式集合和字符串集合构建数据结构。因为每个已存储文件均对应一个布尔表达式,该布尔表达式可以代表所对应的已存储文件。如图3所示,作为本发明的另一个实施例,在所述步骤K3中包括如下步骤步骤 Y1,构建布尔表达式集合中的布尔表达式与字符串集合中的字符串的关联关系,即某字符串包含在哪些布尔表达式中。步骤Y2,根据布尔表达式集合及字符串集合确定跳跃表及哈希表大小,并构建入口哈希函数hi和h2。步骤^,根据字符串集合构建跳跃表,并确定跳跃表的跳跃距离。步骤W,根据字符串集合构建哈希表。步骤TO,为每个布尔表达式构建计数器,并将计数器初始化为零。如图4所示,作为本发明的又一个实施例,在所述步骤W2中包括如下步骤步骤 Si,读取待存储文件的首个等长字节。步骤S2,判断待存储文件的全部字节是否读取完毕, 如果未读取完毕那么执行S3步骤,如果读取完毕那么执行Ql步骤。步骤S3,那么根据入口哈希函数hl,计算跳跃表入口地址,找到跳跃表对应项。步骤S4,判断跳跃值是否为0,如果不为0那么执行步骤S5,如果为0那么执行步骤S6。步骤S5,该步骤包括如下步骤步骤S51,跳跃对应值;步骤S52,读取待存储文件的下一个等长字节;步骤S53,执行S2步骤。 步骤S6,根据入口哈希函数h2,计算哈希入口地址。步骤S7,判断是否链接字符串,如果无链接,那么执行S52步骤和S53步骤,如果有链接,那么执行S8步骤。步骤S7中的判断是否链接字符串是指判断哈希表中是否链接字符串。步骤S8,找到全部哈希表链接字符串, 判断是否匹配。步骤S9,判断是否匹配,如果匹配,那么执行SlO步骤,如果不匹配,那么执行S52步骤和S53步骤。步骤S8和步骤S9中所称判断是否匹配是指判断哈希表链接字符串与待存储文件的字符串是否匹配。步骤S10,逐个处理匹配字符串。在步骤SlO中,因为哈希表中可能有多个字符串与待存储文件中的字符串匹配,所以要逐个处理匹配字符串。 步骤Sll,判断是否第一次匹配,如果是第一次匹配,那么执行S12步骤,如果不是第一次匹配,那么执行SlO步骤。在步骤Sll中,所称是否第一次匹配是指是否第一次对存储文件中的字符串进行匹配。步骤S12,包含此字符串的布尔表达式的计数器加1。步骤S13,执行S52步骤和S53步骤。该等长字节可以为四个字节数据。对待存储文件每次处理4字节字符块,从文本串头开始匹配,使用哈希函数hi进行运算,用得到的哈希值检索Shift表,若对应的跳跃表表项跳跃值不为零,则根据该跳跃值移动窗口并重复以上匹配过程;如果跳跃值为零,则再次对该字符块进行二次哈希运算h2,用得到的哈希值检索Hash表,如果该表项链接有一个或者多个可能匹配的字符串,则依次将这些字符串和文本中相应的字段进行匹配验证。如果确实存在匹配,则报告匹配。其中字符串匹配验证时要先根据字符串偏移值移动字符串,使之与文本对应位置对齐,再采用整数比较技术进行字符比较。不论是否发生匹配,文本窗口都按照Hash表的跳跃值移动,重复以上匹配过程,直到文本末端,匹配过程结束。然后再利用字符串匹配算法进行判断,匹配时报告其字符串号。针对布尔表达式,当某个字符串匹配成功时,首先判断是否是此字符串特征第一次匹配,若不是则表示已经处理过此字符串,直接忽略,若是第一次则查找到包含此字符串的布尔表达式,更新计数器信息,当计数器计数到此表达式包含的字符串个数时,即表示此布尔表达式匹配成功。如图4所示,作为本发明的又一个实施例,所以步骤W3包括如下步骤步骤Q1,根据布尔表达式包含的字符串个数及布尔表达式的计数器值,得出匹配布尔表达式集合;即, 如某个布尔表达式有8段字符串,该布尔表达式的计数器值也是8,那么该布尔表达式就为匹配布尔表达式,将所有匹配布尔表达式集合起来组成匹配布尔表达式集合。步骤Q2,判断是否有匹配,如果有匹配,那么执行C3步骤,如果无匹配,那么该待存储文件是新文件,将待存储文件存储至备份系统;该步骤中所称是否有匹配是指待存储字符串与每个布尔表达式进行匹配。步骤Q3,判断匹配布尔表达式集合是否处理完,如果全部处理完,那么该待存储文件是新文件,将待存储文件存储至备份系统中,如果未处理完,那么执行Q4步骤;在步骤Q3中所述的判断匹配布尔表达式集合是否处理完是指因为匹配布尔表达式集合中多个匹配布尔表达式,每次要对一个匹配布尔表达式进行处理,当将最后一个匹配布尔表达式处理完成后才认为是全部处理完,否则认为未处理完。步骤Q4,找到该条布尔表达式代表的已存储文件。步骤Q5,判断文件大小是否一致,如果一致,那么执行Q6步骤,如果不一致, 那么执行Q3步骤;判断文件大小是指对待存储文件和已存储文件的大小进行比较。步骤 Q6,判断文件内容是否一致,如果一致,那行执行Q7步骤,如果不一致,那么执行Q3步骤;判断文件内容是指对待存储文件和已存储文件的内容进行比较。步骤Q7,该待存储文件与备份系统中某文件属于重复数据,不保存该待存储文件。当布尔表达式匹配成功时,表示要存储的文件和存储系统已经存在的某文件可能一样,此时,根据布尔表达式索引到存储系统中已经存在的文件,进一步判断文件大小是否相等,若相等再进一步进行文件内容匹配, 若相等说明该文件属于重复数据。在所述步骤Kl中,根据每个已存储文件大小,从每个已存储文件中抽取5至15段
等长字符串。在所述步骤Kl中,从每个已存储文件的开头、中间、结尾的随机位置分别抽取32 字节长的字符串。之所以采用32字节是根据多字符串匹配算法WM来确定的,WM算法针对等长的较长特征处理是最简单的,性能也是最好的,取出的若干个字符串构成一条布尔表达式来代表此文件。逐个文件进行特征提取,获得布尔表达式特征集合和其中包含的字符串特征集合。已存储文件是指备份系统中已经存储的文件,待存储文件是指准备存入备份系统的文件。本方法涉及一种适用于工作负载保护系统的重复数据删除方法,属于计算机数据备份的重复数据删除方法,适用于基于磁盘的工作负载保护、备份、归档系统,解决现有重复数据删除方法存在的针对大规模小文件检测性能慢的问题。工作负载保护系统容灾备份系统可以只保护数据,也可以保护系统,本文主要针对的不是单纯的数据,而是集操作系统、应用软件、数据为一体的服务器工作单元,本文将其称为工作负载(Workload)。随着云计算、虚拟化技术的快速发展,大量的应用也可在虚拟机上运行,本文所提到的工作负载不仅仅指一台物理服务器,也可以是任意一台虚拟机。简言之,服务器工作负载是指驻留在物理或虚拟主机上的操作系统、应用程序和数据。它是业界约定俗成的数据中心业务值的基本单位。工作负载保护指的是针对工作负载进行容灾备份的保护系统,它与单纯的数据备份系统保护的对象不同,主要区别是操作系统和应用软件中有极大数量的小文件需要备份保护。现有的重复数据删除原理基本都是对每一个文件或每一个数据块逐个进行判断, 在处理数量小的数据文件时是较为合适的,但是针对大规模(十万级别)小文件,该技术方案的性能下降很快,如一台普通window服务器,c盘下的windows目录有约5万左右数量的文件,总大小在5G左右,平均每个文件小于IOOk(这是由于里面尚存在少量较大文件,其余文件都比较小),c盘下的program file目录也大概符合这个比例,如安装了 70个常用软件后,约有7万左右数量文件,总大小在7G左右,平均每个文件小于100k。按照传统方法进行逐个文件判断非常消耗性能,在保护系统软件和应用软件时不太实用,需要进一步改进。工作负载保护系统同样存在大量的重复数据问题,其更突出的特点是要保护大量的小文件,采用布尔表达式特征匹配的方法可以同时判断十万级规模的文件是否存在重复数据,基于此基础,本文提出一种针对工作负载保护系统的重复数据删除方法。布尔表达式(BoolExpression),形式为 S1&S2&S3&......&Sk_l&Sk,其中 Si,
S2,……Sk-1,Sk都是字符串,&表示的是字符串之间的逻辑与操作,字符串顺序无关紧要。布尔表达式匹配(Be-Match)算法,给定一个长度为η的文本Τ,和一个布尔表达式SMS2&S;3&……&Sk4&Sk,算法从文本T中找到k个位置,其中每一个位置匹配一个字符串,且k个字符串都匹配,同时每两个位置间隔大于匹配字符串长度,即任意两个字符串之间存在若干其它字符。直观地说,布尔表达式匹配当且仅当其中特定的几个字符串特征都匹配时,才表示此条布尔表达式发生了匹配。即一个字符串特征(String)如果出现在输入数据流中,则表示这个特征匹配了(match);而一个布尔表达式(Expression)包含多个字符串特征,必须当其中所有特征都匹配时,才表示此条布尔表达式匹配。布尔表达式集匹配(BeIet-Match)算法,给定一个长度为η的文本Τ,和一个布尔表达式集合Bel,Be2,……Bem,算法从文本T中找到所有χ组有序的k个位置,其中,每一组k个位置与某条布尔表达式匹配。本发明中字符串特征匹配采用多模式匹配算法wm算法为基础,通过本发明办法, 可以直接将已经存储的数十万级规模的文件统一处理,只需将待保存的文件扫描一遍,即可判断是否与系统内哪些文件属于重复数据,不是重复数据的再进行实际的存储操作。WM字符串匹配算法原理WM算法分为预处理和匹配两个阶段。如果字符串集中的最短字符串长度为m,那么算法在预处理阶段会先统一考虑所有字符串的前m个字符,以此建立三张表格,跳跃表(下称Shift表),字符串表(下称Hash表)和前缀表(下称I^refix 表)。如图1所示,以字符串集{she,hers, his, kiss}为例,构造三个表,其中,Shift表存储后缀字符块对应的窗口偏移量(即跳跃值),Hash表和ft~efiX表用来索引字符串,以便在后缀字符块命中时验证是否出现匹配。算法预处理过程中构建Shift表、Hash表和I^refix表。设字符块大小为B,一般是2,将Shift表所有表项跳跃值初始化为m-B+1,然后将所有字符串的前m个字符中所有大小为B的字符块的跳跃值依次填入Shift表。字符块跳跃值计算方法是如果字符块在前m字符中的偏移量为j (字符块头字符离字符串开始处的位移量),其跳跃值为m-B-j,而 Shift表中某表项的跳跃值,则是所有该表项字符块跳跃值的最小值,因为这是一个安全的跳跃值,不会漏过任何匹配;如果字符块为前m个字符的后缀字符块,即j=m-B,则该字符块所在的Siift表项跳跃值为零,此时将该后缀字符块所在的字符串链接在对应的Hash表的表项中(Hash表和Shift表采用的是同一个哈希函数索引hl^refix表的建立则是为了快速区分链接在同一个Hash表表项下的字符串。匹配过程中,将一个大小为B的文本窗口从文本串的开始位置滑动,对于文本窗口中大小为B的字符块,首先用哈希函数求得哈希值,利用哈希值索引Shift表得到跳跃值,不为零则根据这个值移动文本窗口,若为零,则利用哈希值索引Hash表,并验证其链接的所有字符串,验证中通过I^refix表快速排除不符合条件的字符串,若匹配则触发相应处理。验证完毕,不论是否出现匹配,均将文本窗口向末端移动一位,重复上述操作。因此在一般情况下,WM算法经常能用一次字符读取和比较,就产生比较大的跳跃值,从而很快地跳过不需要匹配的字符,这也是WM算法性能优越的主要因素。从WM算法的原理上看,其性能的提升源于跳跃的发生,也就是在某些情况下不必每个字符都检验,基于初始化阶段建立的Shift表可以避开无谓的比较操作,提升算法性能。针对大规模字符串集时,比如几万至几十万字符串,假设分布均勻,传统WM算法每次读入2字节,Shift表项最多为216约为6万多项,此时大部分表项跳跃值为0,即在很大概率上无法跳跃,且需经常中断文本窗口移动去匹配链接在Hash表中的字符串,导致算法性能迅速下降。基于跳跃的算法都是尽可能利用跳跃来避免不必要的匹配操作,一旦无法跳跃, 则进行逐个字节匹配,性能立刻下降。因此,要想获得高性能,算法必须保持较高跳跃概率, 通过对算法原理、实现和运行等的研究,本发明提供了支持大规模字符串匹配算法LAPM,在预处理过程中充分挖掘算法和字符串特征集的潜在信息,增加跳跃概率,并基于算法运行平台设计优化策略,以提高算法性能。首先,它将每周期读入字符数由2字节提高到4字节,这样Shift表可以最大有232约为4G项,可以保证很高的跳跃概率,但同时带来了不可接受的存储消耗;为了减少存储,用哈希函数处理每4字节数据,得出结果作为地址访问 Shift表和Hash表,这样既可以保证较高的跳跃概率,又提高了存储效率;但哈希函数又带来哈希冲突问题,为了减少冲突,采用两个不同的哈希函数来分别索引Siift表和Hash表。 由此可以看到读入字符数、存储消耗、哈希冲突几个因素互相制约,本发明提出一个动态调整算法来寻找最优或较优平衡点。布尔表达式匹配算法原理首先利用LAPM匹配算法进行判断,匹配时报告其字符串号。针对布尔表达式,当某个字符串匹配成功时,首先判断是否是此字符串特征第一次匹配,若不是则表示已经处理过此字符串,直接忽略,若是第一次则查找到包含此字符串的布尔表达式,更新计数器信息,当计数器计数到此表达式包含的字符串个数时,即表示此布尔表达式匹配成功。重复数据判断原理当布尔表达式匹配成功时,表示存储中已经存在的某文件可能和要保存的文件一样,此时,根据布尔表达式索引到要存储的文件,进一步判断文件大小是否相等,若相等再进一步进行文件内容匹配,若相等说明该文件属于重复数据,不需要重新保存,做好链接即可。在预处理过程中,首先建立相关字符串特征数据结构和布尔表达式数据结构,PAT 结构中增加了布尔表达式链表,表示包含此字符串的布尔表达式。在构建Shift表和Hash 表过程中,初始化Shift表和Hash表,将所有表项的初始跳跃值置为m-B+1,将Hash表中链表字符串个数num置零,将字符串链表置为空。构建Shift表和Hash表,针对每一个字符串,对最优窗口内每4字节字符块做哈希,保存对应的跳跃值到Shift表中,保存对应跳跃值到Hash表,并将字符串加到跳跃值为零的Hash表链表中。预处理时,建立布尔表达式集中布尔表达式与字符串的关联关系,布尔表达式的 pat_list链接其包含的字符串号,字符串的be_list链接其所在的布尔表达式号。为了判断布尔表达式匹配,需要额外添加的是stream数据结构,见图4,它记录字符串是否匹配和布尔表达式的匹配位置。以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
权利要求
1.一种适用于工作负载保护系统的重复数据删除方法,其特征在于,包括如下步骤A.对所有已存储文件进行预处理,并建立数据结构;B.通过预处理数据结构实现待存储文件与已存储文件进行匹配;C.判断待存储文件是否为重复数据,如果待存储文件是重复数据,那么不必将待存储文件保存至备份系统,如果待存储文件不是重复数据,那么将待存储文件保存至备份系统中。
2.根据权利要求1所述的重复数据删除方法,其特征在于,在所述步骤A中还包括如下步骤Al.对已存储文件中的字符串进行抽取,将抽取的字符串组成布尔表达式,且每个已存储文件均对应一个布尔表达式,所有的布尔表达式组成布尔表达式集合; A2.将所有布尔表达式所包括的字符串进行提取组成字符串集合; A3.根据布尔表达式集合和字符串集合构建数据结构。
3.根据权利要求2所述的重复数据删除方法,其特征在于,在所述步骤A3中包括如下步骤A31.构建布尔表达式集合中的布尔表达式与字符串集合中的字符串的关联关系; A32.根据布尔表达式集合及字符串集合确定跳跃表及哈希表大小,并构建入口哈希函数hi和h2;A33.根据字符串集合构建跳跃表,并确定跳跃表的跳跃距离; A34.根据字符串集合构建哈希表;A35.为每个布尔表达式构建计数器,并将计数器初始化为零。
4.根据权利要求3所述的重复数据删除方法,其特征在于,在所述步骤B中包括如下步骤Bi.读取待存储文件的首个等长字节;B2.判断待存储文件的全部字节是否读取完毕,如果未读取完毕那么执行B3步骤,如果读取完毕那么执行Cl步骤;B3.那么根据入口哈希函数hl,计算跳跃表入口地址,找到跳跃表对应项; B4.判断跳跃值是否为0,如果不为0那么执行步骤B5,如果为0那么执行步骤B6 ; B5.该步骤包括如下步骤 B51.跳跃对应值;B52.读取待存储文件的下一个等长字节; B53.执行B2步骤; B6.根据入口哈希函数h2,计算哈希入口地址;B7.判断是否链接字符串,如果无链接,那么执行B52步骤和B53步骤,如果有链接,那么执行B8步骤;B8.找到全部哈希表链接字符串,判断是否匹配;B9.判断是否匹配,如果匹配,那么执行BlO步骤,如果不匹配,那么执行B52步骤和 B53步骤;B10.逐个处理匹配字符串;Bll.判断是否第一次匹配,如果是第一次匹配,那么执行B12步骤,如果不是第一次匹配,那么BlO步骤;B12.包含此字符串的布尔表达式的计数器加1 ; B13.执行B52步骤和B53步骤。
5.根据权利要求4所述的重复数据删除方法,其特征在于,所以步骤C包括如下步骤 Cl.根据布尔表达式包含的字符串个数及布尔表达式的计数器值,得出匹配布尔表达式集合;C2.判断是否有匹配,如果有匹配,那么执行C3步骤,如果无匹配,那么该待存储文件是新文件,将待存储文件存储至备份系统中;C3.判断匹配布尔表达式集合是否处理完,如果全部处理完,那么该待存储文件是新文件,将待存储文件存储至备份系统中,如果未处理完,那么执行C4步骤; C4.找到该条布尔表达式代表的已存储文件;C5,判断文件大小是否一致,如果一致,那么执行C6步骤,如果不一致,那么执行C3步骤;C6.判断文件内容是否一致,如果一致,那行执行C7步骤,如果不一致,那么执行C3步骤;C7.该待存储文件与备份系统中某文件属于重复数据,不保存该待存储文件。
6.根据权利要求2所述的重复数据删除方法,其特征在于,在所述步骤Al中,根据每个已存储文件大小,从每个已存储文件中抽取5至15段等长字符串。
7.根据权利要求6所述的重复数据删除方法,其特征在于,在所述步骤Al中,从每个已存储文件的开头、中间、结尾的随机位置分别抽取32字节长的字符串。
全文摘要
本发明提供了一种适用于工作负载保护系统的重复数据删除方法,包括如下步骤A.对所有已存储文件进行预处理,并建立数据结构;B.通过预处理数据结构实现待存储文件与已存储文件进行匹配;C.判断待存储文件是否为重复数据,如果待存储文件是重复数据,那么不必将待存储文件保存至备份系统,如果待存储文件不是重复数据,那么将待存储文件保存至备份系统中。本发明的有益效果是本发明的方法通过将待存储文件与经预处理的已存储文件进行匹配,然后判断待存储文件是否为重复数据,如果待存储文件是重复数据,那么不必将待存储文件保存至备份系统,如果待存储文件不是重复数据,那么将待存储文件保存至备份系统中,使得提高了备份速度。
文档编号G06F17/30GK102184198SQ20111010218
公开日2011年9月14日 申请日期2011年4月22日 优先权日2011年4月22日
发明者张伟, 徐涛 申请人:深圳市广道高新技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1