适用于云存储的智能配置存储备份方法

文档序号:6423846阅读:169来源:国知局
专利名称:适用于云存储的智能配置存储备份方法
技术领域
本发明涉及云存储领域,特别涉及一种适用于云存储的策略驱动的智能配置存储备份方法。
背景技术
云存储是在云计算(cloud computing)概念上延伸和发展出来的一个新的概念, 是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。如今磁盘备份设备的容量已经趋于饱和,数据中心已经没有足够的空间来备份PT 级的数据。在这种情况下,当我们希望将备份数据保存一个月时,却只能保存两到三天。问题的根源在于备份设备中总是充斥着大量的冗余数据。为了解决这个问题,节省更多空间, “重复数据删除”技术便顺理成章地成了人们关注的焦点。采用“重复数据删除”技术可以将存储的数据缩减为原来的1/20,从而让出更多的备份空间,不仅可以使磁盘上的备份数据保存更长的时间,而且还可以节约离线存储时所需的大量的带宽。存在于数据重复删除中的风险是,如果重复数据删除系统错误地把两个不同数据块识别成含有相同数据的块,当它们不被存储时,数据块被错误识别的这个文件会被破坏。 更大的风险是来自硬件故障的灾难性的数据损失。因为任何特定的备份工作的数据实事上是任何特定的大文件被切成块,分散在整个重复数据删除设备中,它不关心你备份了那个服务器多少次,如果你在重复删除设备中损失了一个RAID设置,你会损失很多数据。本发明旨在研究动态且非破坏性的迁移功能,提供了不同级别存储的数据迁移功能。实现这一流程自动化对于减轻存储管理员负担和最大限度降低故障风险来说十分重要。

发明内容
针对现有重复数据删除中存在的缺陷与问题,申请人进行了改进研究,提供一种适用于云存储的智能配置存储备份方法,通过将数据去重压缩分层存储,从而提高数据去重率和系统性能占用率性价比,优化存储资源配置。本发明的技术方案如下
一种适用于云存储的智能配置存储备份方法,根据用户需求选定存储备份策略,所述存储备份策略包括分层存储子策略以及效率性能子策略;根据分层存储子策略对待备份文件进行分类,根据效率性能子策略对待备份文件进行文件级或数据块级的重复数据删除并进一步压缩;根据分层存储子策略把文件转移到不同级别的存储上,同时保留指向存储地的索引指针;检查文件以前的备份状态,把处理后的文件备份至备份设备,完成备份同步。
具体步骤如下
1)选定策略,根据用户需求选定存储备份策略,系统根据历史数据给出分析数据,用户依照所述分析数据做出策略调整;
2)文件分类,判断文件是否符合分层存储条件,如果该文件符合分层存储条,则进入步骤3);如果该文件不符合分层存储条件,则进入步骤6);
3)对符合分层存储条件的文件,检查其是否做过分层存储,如果该文件未做过分层存储,则进入重复数据删除子程序,重复数据删除子程序结束后进入步骤4);如果该文件已经做过分层存储,则过程结束;
4)分层存储,根据数据的重要程度不同将数据分开存储至不同存储,重要的数据存放至高性能、高安全性的存储层,不重要的数据存放至低级存储层;
5)同步备份,检查备份设备有无此文件,如果没有,则备份该文件至备份设备;如果已有此文件,则不用操作;
6)对不符合分层存储条件的文件,检查其有无历史备份,如果已有备份,则过程结束; 如果无备份,则进入步骤7);
7)根据策略对数据块大小的限定,检查文件尺寸是否小于数据块大小,如果文件尺寸小于数据块尺寸,则进入步骤5);如果文件尺寸大于等于数据块尺寸,则进入重复数据删除子程序,重复数据删除子程序结束后进入步骤5);
8)过程结束。其进一步的技术方案为所述步骤1)中用户设置的存储备份策略包括分层存储子策略以及效率性能子策略
所述分层存储子策略是根据分层备份需求和备份环境,设置以下参数
A.指定文件被访问的频率,在此频率以下的所有文件与其余文件实行不同级别存储的数据迁移;
B.指定文件的路径,在此路径下的所有文件与其余文件实行不同级别存储的数据迁
移;
C.指定文件的类型,对所有该类型的文件与其余文件实行不同级别存储的数据迁移; 所述效率性能子策略是根据备份的性能效率需求,设置以下参数
D.指定数据块颗粒大小,从22K 1 范围内选定;
E.指定本次操作完成期限,根据用户需求选定;
F.指定数据重复删除以后是否需要再做数据压缩;
其进一步的技术方案为所述步骤4)分层存储具体包括如下步骤
(1)当文件尺寸大于预先确定的值,迁移文件到低级存储;
(2)在原文件的位置留下一个和原文件同名的存根文件,所述存根文件是一个指针类型的文件,其包含了已被迁移的原文件的新的位置信息和调用程序;
(3)如果该文件被调用,存根文件通过其调用程序和位置信息调回文件。其进一步的技术方案为所述步骤5)同步备份结束后,保存本次备份策略和备份性能参数到数据库,作为后续备份策略制定的参考数据。其进一步的技术方案为所述重复数据删除子程序具体包括如下步骤
①对数据文件进行文件级重复数据删除,采用零碰撞指纹算法计算该文件的指纹,在备份文件指纹库中查找该文件指纹,如果找到该指纹,说明该文件先前已有过备份;如果未找到指纹,则进入步骤②;
②对数据文件进行数据块级重复数据删除,数据块粒度大小为32k;
③对照策略确认是否需要数据压缩,如果需要压缩,进入步骤④,否则重复数据删除子程序结束;
④对去重后的数据块集合进行压缩;
⑤重复数据删除子程序结束。本发明的有益技术效果是
发明使用户可根据需要灵活的配置备份策略;在接受到用户备份请求后,分层存储子策略提供对数据进行分类,将满足的文件转移到相应级别的存储上,从而减少主存储的占用,优化各种存储资源综合利用;效率性能子策略提供对数据去重率和系统性能占用平衡考虑,以求在满足系统性能要求条件下,数据去重率最大。


为了更清楚的说明本发明实施例中的技术方案,下面将实施例中所使用的附图作简单介绍。这些附图构成本申请的一部分,并不构成对本发明的限定。图1是本发明的总体框图。图2是本发明的具体实施例流程图。图3是本发明中重复数据删除子程序的流程图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行全面的描述,显然,所描述的实施例仅仅是本发明的部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没作出创造性劳动前提下获得的所有其他实施例,都属于本发明保护的范围。如图1所示,本发明是一种适用于云存储的智能配置存储备份方法,其方案是根据用户的需求选定存储备份策略,这里的存储备份策略包括分层存储子策略以及效率性能子策略。首先根据分层存储子策略(包括文件最近一次访问时间或访问频度、指定分层等) 对待备份文件进行分类,然后根据效率性能子策略对待备份文件进行文件级或数据块级的重复数据删除并进一步压缩;接着根据分层存储子策略把文件转移到不同级别的存储上, 同时保留指向存储地的索引指针;最后检查文件以前的备份状态,把处理后的文件备份至备份设备,完成备份同步。图2示出了本发明的具体流程。如图2所示,本发明方法的流程包括如下具体步骤
步骤1 选择、确定具体的存储备份策略,由用户选定策略,系统自动根据历史数据给出分析数据,以便用户依照分析数据做策略调整,具体是
(A)指定文件被访问的频率,在此频率以下的所有文件与其余文件实行不同级别存储的数据迁移。具体来说,比如找出近一月内没有被访问的文件和一年内被访问不超过5次的文件,上述文件与其余文件实行不同级别存储的数据迁移,(B)指定新文件的路径,在此路径下所有文件与其余文件立即实行不同级别存储的数据迁移。(C)指定新文件的文件类型,对所有该类型的文件与其余文件实行不同级别存储的数据迁移;
所述不同级别的存储是指根据数据的重要程度不同将数据分开存储至不同存储,重要的数据存放至高性能、高安全性的存储层,不重要的数据存放至低级存储;
(D)指定数据块颗粒大小为32K,从22 K 1 范围内选定;
(E)指定本次操作的完成期限,可根据用户需求设定,如“5小时”;
(F)指定数据重复删除以后是否需要再做数据压缩。上述参数(A)、(B)、(C)称为分层存储子策略;根据分层备份需求和备份环境,用户可以灵活设置参数(A)、(B)、(C)。上述参数(D)、(E)、(F)称为效率性能子策略;根据备份的性能效率需求,用户可灵活设置参数⑶)、^)、^)。比如以下两个策略配置方案
方案一本次备份要求去重率最大,对备份时间不做要求。可以将参数(D)设置为数据块大小为4K,参数(F)需要数据压缩。设置完后,系统根据历史数据和待备份的数据大小、 备份参数,自动计算出备份时间、去重率。方案二 如果某次备份,数据量为1TB,时间要求5小时,那么只要设置参数(E)为 5小时。设置完后,系统根据历史数据和待存储备份的数据大小、备份时间,自动计算出计算数据块尺寸的限制,必须大于16K,因此3 是最佳选择。步骤2 文件分类,判断文件是否符合分层存储条件,如果该文件符合分层存储条,则进入步骤3 ;如果该文件不符合分层存储条件,则进入步骤6。步骤3 对符合分层存储条件的文件,检查其是否做过分层存储,如果该文件未做过分层存储,则进入重复数据删除子程序,重复数据删除子程序结束后进入步骤4 ;如果该文件已经做过分层存储,则过程结束。步骤4 分层存储,对比分层存储子策略,如果文件满足策略条件,则实行不同级别存储的数据迁移;不同级别的存储是指根据数据的重要程度不同将数据分开存储至不同存储,重要的数据存放至高性能、高安全性的存储层,不重要的数据存放至低级存储层;数据分层存储和调用对用户来说是完全透明的,它包括如下步骤
(1)当文件尺寸大于一个预先确定的值比如4k或池,迁移文件到低级存储;
(2)在原文件的位置留下一个和原文件同名的存根文件。存根文件是一个指针类型的文件,它包含了已被迁移的原文件的新的位置信息和调用程序。存根文件的尺寸一般是固定的而且很小(4k或池),原文件都比它大,也就是说文件尺寸大于存根文件的就可以被迁移到低级存储,这是分层存储的原则。(3)如果该文件需求调用,存根文件通过其调用程序和位置信息调回文件。步骤5 同步备份,检查备份设备有无此文件,如果没有,则备份该文件至备份设备;如果已有此文件,则不用操作。备份结束后,系统自动保存本次备份策略和备份性能参数到数据库,作为后续备份策略制定的参考数据,为后续备份提供辅助决策。
7
步骤6 对不符合分层存储条件的文件,检查其有无历史备份,如果已有备份,则过程结束;如果无备份,则进入步骤7。步骤7 根据策略对数据块大小的限定,检查文件尺寸是否小于数据块大小,如果文件尺寸小于数据块尺寸,则进入步骤5 ;如果文件尺寸大于等于数据块尺寸,则进入重复数据删除子程序,重复数据删除子程序结束后进入步骤5。具体来说,比如对文件尺寸小于数据块尺寸32k的文件,进入步骤5 ;文件尺寸大于数据块尺寸32k的文件,进入A子程序, A子程序结束后进入步骤5。步骤8:过程结束。如图3所示,本实施例所述的重复数据删除子程序(即图3中所指A子程序)具体包括如下步骤
①对数据文件进行文件级重复数据删除,采用零碰撞指纹算法(例如可采用MD5算法) 计算该文件的指纹,在备份文件指纹库中查找该文件指纹,如果找到该指纹,说明该文件先前已有过备份;如果未找到指纹,则进入步骤②;
②对数据文件进行数据块级重复数据删除,数据块粒度大小为32k;
③对照策略确认是否需要数据压缩,如果需要压缩,进入步骤④,否则重复数据删除子程序结束;
④对去重后的数据块集合进行压缩;
⑤重复数据删除子程序结束。以上实施例中使用的硬件环境包括用户端和备份服务器、主存储、二级存储以及备份设备,采用现有技术设计制造或直接采用相关市售产品。以上所述的仅是本发明的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围之内。
权利要求
1.一种适用于云存储的智能配置存储备份方法,其特征在于根据用户需求选定存储备份策略,所述存储备份策略包括分层存储子策略以及效率性能子策略;根据分层存储子策略对待备份文件进行分类,根据效率性能子策略对待备份文件进行文件级或数据块级的重复数据删除并进一步压缩;根据分层存储子策略把文件转移到不同级别的存储上,同时保留指向存储地的索引指针;检查文件以前的备份状态,把处理后的文件备份至备份设备, 完成备份同步。
2.根据权利要求1所述适用于云存储的智能配置存储备份方法,其特征在于具体步骤如下1)选定策略,根据用户需求选定存储备份策略,系统根据历史数据给出分析数据,用户依照所述分析数据做出策略调整;2)文件分类,判断文件是否符合分层存储条件,如果该文件符合分层存储条,则进入步骤3);如果该文件不符合分层存储条件,则进入步骤6);3)对符合分层存储条件的文件,检查其是否做过分层存储,如果该文件未做过分层存储,则进入重复数据删除子程序,重复数据删除子程序结束后进入步骤4);如果该文件已经做过分层存储,则过程结束;4)分层存储,根据数据的重要程度不同将数据分开存储至不同存储,重要的数据存放至高性能、高安全性的存储层,不重要的数据存放至低级存储层;5)同步备份,检查备份设备有无此文件,如果没有,则备份该文件至备份设备;如果已有此文件,则不用操作;6)对不符合分层存储条件的文件,检查其有无历史备份,如果已有备份,则过程结束; 如果无备份,则进入步骤7);7)根据策略对数据块大小的限定,检查文件尺寸是否小于数据块大小,如果文件尺寸小于数据块尺寸,则进入步骤5);如果文件尺寸大于等于数据块尺寸,则进入重复数据删除子程序,重复数据删除子程序结束后进入步骤5);8)过程结束。
3.根据权利要求2所述适用于云存储的智能配置存储备份方法,其特征在于所述步骤1)中用户设置的存储备份策略包括分层存储子策略以及效率性能子策略所述分层存储子策略是根据分层备份需求和备份环境,设置以下参数A.指定文件被访问的频率,在此频率以下的所有文件与其余文件实行不同级别存储的数据迁移;B.指定文件的路径,在此路径下的所有文件与其余文件实行不同级别存储的数据迁移;C.指定文件的类型,对所有该类型的文件与其余文件实行不同级别存储的数据迁移;所述效率性能子策略是根据备份的性能效率需求,设置以下参数D.指定数据块颗粒大小,从22K 1 范围内选定;E.指定本次操作完成期限,根据用户需求选定;F.指定数据重复删除以后是否需要再做数据压缩。
4.根据权利要求2所述适用于云存储的智能配置存储备份方法,其特征在于所述步骤4)分层存储具体包括如下步骤(1)当文件尺寸大于预先确定的值,迁移文件到低级存储;(2)在原文件的位置留下一个和原文件同名的存根文件,所述存根文件是一个指针类型的文件,其包含了已被迁移的原文件的新的位置信息和调用程序;(3)如果该文件被调用,存根文件通过其调用程序和位置信息调回文件。
5.根据权利要求2所述适用于云存储的智能配置存储备份方法,其特征在于所述步骤5)同步备份结束后,保存本次备份策略和备份性能参数到数据库,作为后续备份策略制定的参考数据。
6.根据权利要求2所述适用于云存储的智能配置存储备份方法,其特征在于所述重复数据删除子程序具体包括如下步骤①对数据文件进行文件级重复数据删除,采用零碰撞指纹算法计算该文件的指纹,在备份文件指纹库中查找该文件指纹,如果找到该指纹,说明该文件先前已有过备份;如果未找到指纹,则进入步骤②;②对数据文件进行数据块级重复数据删除,数据块粒度大小为32k;③对照策略确认是否需要数据压缩,如果需要压缩,进入步骤④,否则重复数据删除子程序结束;④对去重后的数据块集合进行压缩;⑤重复数据删除子程序结束。
全文摘要
本发明涉及一种适用于云存储的智能配置存储备份方法,根据用户需求选定存储备份策略,所述存储备份策略包括分层存储子策略以及效率性能子策略;根据分层存储子策略对待备份文件进行分类,根据效率性能子策略对待备份文件进行文件级或数据块级的重复数据删除并进一步压缩;根据分层存储子策略把文件转移到不同级别的存储上,同时保留指向存储地的索引指针;检查文件以前的备份状态,把处理后的文件备份至备份设备,完成备份同步。本发明通过将数据去重压缩分层存储,从而提高数据去重率和系统性能占用率性价比,优化存储资源配置。
文档编号G06F11/14GK102200936SQ20111012078
公开日2011年9月28日 申请日期2011年5月11日 优先权日2011年5月11日
发明者杨钧 申请人:杨钧
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1