一种云存储系统中节约型重复数据删除方法_3

文档序号:9216984阅读:来源:国知局
[0055] ①Request请求修改:节点i接到来自客户端对某一数据块(记为A)的修改请求 后,复制读取数据块A到内存中;
[0056] ②Modify作出修改:节点i在内存中对数据块A进行修改(修改后的数据块记为 B)则A的引用次数做减1操作,并利用MD5算法计算B的指纹值;
[0057] ③Check重复检测:节点i快速在本地查找B的指纹值是否已经存在,以避免重复 数据的存储。若无则跳到步骤⑤,否则记节点i上与数据块B相同的数据块为B',并进行下 一步;
[0058] ④Deduplicate重复删除:删除数据块B,并使用指向数据块B'的指针替换数据 块B的存储;
[0059] ⑤Store存储:将修改后的新数据块B存储在节点i上,并更新节点i本地的元数 据信息表;
[0060] ⑥Check重复检测:节点i定期将更新的元数据信息发送到元数据服务器上,由元 数据服务器判断其它节点j(j辛i)上是否有相同数据块。若找到则跳到步骤⑧,否则下一 步;
[0061] ⑦Replica创建副本:由元数据服务器为新数据块B创建副本;
[0062] ⑧分类处理:元数据服务器判断重复数据块B是否为热点重复数据块,如公式 (1),若是,则跳到步骤⑩,否则下一步;
[0064] 式中,tp+1时刻节点i上某一数据块发生修改,并确定该数据块在节点i上不重复, 在节点j上有重复数据块;表示在%+1_、时间段内某一个数据块在存储节点端(除 了节点i)的平均访问次数;a是一个阈值,表示成为热点数据块单位时间内最少的访问次 数A(tp)和~(tp+1)分别表示%和tp+1时刻节点j上某一数据块的访问次数;Z为数据块 B所在节点的编号集合。
[0065] ⑨贪心删除:tp+1时刻,比较非热点重复数据块B所在节点k(kGZ)的剩余容量 Sk(tp+1)和J的大小,始终选择剩余容量相对较少的节点上的数据块B删除。更新元数据服 务器。其中tp+1时刻存储端平均剩余容量歹的求取如公式(2)所示,
[0067] 式中,Sm(tp+1)为tp+1时刻节点m的存储空间剩余容量,n为存储端的节总点数。 [0068] ⑩延迟删除:tp+1时刻不删除热点数据块B,并同步数据块B的元数据到节点j上, 等到下一时刻tp+2继续步骤⑧。
【主权项】
1. 一种云存储系统中节约型重复数据删除方法,所述云存储系统由进行文件操作的客 户端、存放文件系统元数据信息的元数据服务器、同步备份元数据的镜像文件和操作日志 的二级元数据服务器、存储数据块的存储节点共同构成,该方法包括如下步骤: 步骤一;每个客户端对本地待上传文件进行预处理,进行文件级和数据块级的局部重 复数据删除操作W防重复数据的再次上传,然后将待上传文件的元数据信息上传到元数据 服务器; 步骤二:元数据服务器接收到来自不同客户端的元数据信息,依次读取文件指纹、数据 块指纹,然后比对内存、硬盘和写缓存区的指纹索引信息,最后将未上传过的指纹值信息返 回到各个客户端; 步骤客户端将未上传过的新数据上传到存储端,存储端对新数据进行存储,并更新 存储端的元数据信息表; 步骤四:客户端发出要修改数据的请求,通过元数据服务器获取待修改数据所在的存 储节点号,然后连接存储节点并直接对存储端的数据进行修改操作; 步骤五;存储端对修改后的数据块进行检测,当修改后的数据块通过比对指纹值发现 已经在本节点上,直接对其进行重删;当修改后的数据块不在本节点上,则先保存到本节点 上,再通过元数据服务器的比对发现在其他节点上,对该数据块采用延迟重删;当修改后的 数据块通过比对本节点和元数据服务器上的指纹索引,发现既不在本节点上,又不在其他 节点上,除了将该数据块保存到本节点上,元数据服务器还需要为该数据块创建副本。2. 根据权利要求1所述的一种云存储系统中节约型重复数据删除方法,其特征在于所 述元数据服务器上还含有过滤模块W及更新模块,过滤模块用于过滤不同客户端的重复数 据信息,更新模块用于更新存储端全局数据元数据信息,即直接更新重复数据块的元数据 信息,等接收到存储节点反馈的信息后才更新非重复数据块的元数据信息。3. 根据权利要求1所述的一种云存储系统中节约型重复数据删除方法,其特征在于所 述客户端有文件预处理模块、局部重删模块、元数据管理模块和数据传输模块,其中文件预 处理模块依据文件的类型进行文件分类,然后交给局部重删模块进行文件级重删,经过文 件级重删后的非重复文件再返还给文件预处理模块进行过滤(过滤掉小于64MB的非重复 文件),最后再由局部重删模块进行数据块级重删,元数据管理模块用于记录客户端已上传 数据块的指纹值信息,W避免本地重复数据的上传;数据传输模块则是客户端连接元数据 服务器和存储节点的接口,即负责将待上传文件的元数据信息上传到元数据服务器,将非 重复数据块上传到存储节点上。4. 根据权利要求1所述的一种云存储系统中节约型重复数据删除方法,其特征在于所 述存储节点包括存储模块、元数据管理模块、自检报告模块和延迟重删模块,其中存储模块 主要负责数据块的存储,分配数据块的物理地址;元数据管理模块记录本节点上的数据块 的元数据信息;自检报告模块主要是检测数据块的修改所带来的重复数据,交给延迟重删 模块进行热点重复数据块的判断与相应的处理并将修改的元数据信息反馈给自检报告模 块,然后报告给元数据服务器。5. 根据权利要求1所述的一种云存储系统中节约型重复数据删除方法,其特征在于所 述步骤一中文件级重复数据删除;利用MD5算法计算文件指纹值,比对大小和类型相等的 文件指纹值,然后再与本地的元数据信息表进行比对,确定重复文件和非重复文件。6. 根据权利要求1所述的一种云存储系统中节约型重复数据删除方法,其特征在于所 述步骤一所述的数据块级重复数据删除如下:对于非重复文件(已过滤掉小于64MB的文 件),利用定长分块算法进行分块,块长设为64MB,利用MD5算法计算数据块的指纹值,比对 块长相等的数据块确定重复数据块。7. 根据权利要求1所述的一种云存储系统中节约型重复数据删除方法,其特征在于所 述步骤二中比对文件指纹时,若发现指纹值已存在,则不再比对数据块的指纹,否则还要比 对构成文件的数据块指纹。8. 根据权利要求1所述的一种云存储系统中节约型重复数据删除方法,其特征在于所 述步骤=中每个存储端都保存着其上的数据块指纹及其存储地址的映射关系,通过数据块 指纹,即可确定数据块存放的物理地址。9. 根据权利要求1所述的一种云存储系统中节约型重复数据删除方法,其特征在于所 述步骤四中客户端多个用户对数据块的修改可能会引入新的重复数据块,并且现有存储系 统暂不考虑该些重复的数据块,备份系统中用户在本地对数据修改后再进行备份,备份的 过程中过滤掉未作修改的部分;而云存储给用户带来的云端体验如同在本地,用户获取到 想要修改的数据的地址,直接对数据进行修改,该正是云存储与备份系统的不同。10. 根据权利要求1所述的一种云存储系统中节约型重复数据删除方法,其特征在于 所述步骤五中延迟重删包含对热点重复数据块和非热点重复数据块两方面的操作,判断方 法采用如下公式:式中,节点i上某一数据块发生修改,并确定该数据块在节点i上不重复,在节点j上 有重复数据块;見。。.表示在tp+1-tp时间段内某一个数据块在存储节点端(除了节点i)的 平均访问次数;a是一个阔值,表示成为热点数据块单位时间内最少的访问次数;Aj.(tp)和Aj.(tp+i)分别表示tp和tp+i时刻节点j上某一数据块的访问次数;Z为数据块B所在节点的 编号集合; 对于热点重复数据块则延迟重删W降低系统的访问响应时间;对于非热点重复数据 块,则选择非热点重复数据块所在存储节点剩余容量相对较少的节点上的删除W实现负载 均衡。
【专利摘要】本发明公开了一种云存储系统中节约型重复数据删除方法,所述云存储系统由进行文件操作的客户端、存放文件系统元数据信息的元数据服务器、同步备份元数据的镜像文件和操作日志的二级元数据服务器、存储数据块的存储节点共同构成,其方法五个步骤针对云存储系统中数据的动态性,考虑数据本身的特性,将数据分为热点数据和非热点数据,对于不同的数据采用不同的重删时机,以保证系统的性能更佳,对于系统响应时间的降低效果会更好。
【IPC分类】G06F3/06, G06F17/30
【公开号】CN104932841
【申请号】CN201510339033
【发明人】徐小龙, 涂群, 李涛, 徐佳, 朱洁
【申请人】南京邮电大学
【公开日】2015年9月23日
【申请日】2015年6月17日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1