一种云环境系统重复数据删除的方法及系统与流程

文档序号:36267525发布日期:2023-12-06 14:24阅读:31来源:国知局
一种云环境系统重复数据删除的方法及系统与流程

本发明涉及云环境系统,此处,尤其涉及一种云环境系统重复数据删除的方法及系统。


背景技术:

1、云平台通过数据备份、冗余和安全措施,对用户提供了更高的数据安全性和可靠性的承诺。传统云上环境重复数据删除系统,从实现角度可以分为两类,客户端去重和服务端去重。客户端去重主要实在与云服务器进行通信的客户端所在的本地机器上去重,在cloud tiering(数据分层)和云备份等场景应用较多。服务端去重主要指云服务中的保留同一个文件的唯一副本,往往在资源有限的场景下使用。在现有的技术中云平台通过数据备份、冗余和安全措施依旧会影响用户的使用体验,工作效率较低、以及在数据存储中重复的数据删除占据存储空间。

2、因此,云环境中的重复数据删除中的数据不够完整、安全以及工作效率较低是需要解决的完善的问题。


技术实现思路

1、本技术实施例通过提供一种云环境系统重复数据删除的方法及系统,解决了现有技术中云环境中的重复数据删除中的数据不够完整、安全以及工作效率较低是需要解决的完善的问题,实现了云环境的重复数据删除中的数据完整性和安全性,有效提高了工作效率。

2、本技术实施例提供了一种云环境系统重复数据删除的方法,包括,

3、s1、将本地文件上传到云环境容器中,将所述本地文件按照文件块进行拆分、组织,并生成指纹列表ufr,通过对比指纹的相似性进行去重得到数据块、数据备份信息、以及压缩后的数据块指纹,生成批量重复数据删除模块;

4、s2、将所述批量重复数据删除模块中的数据块、数据备份信息、以及压缩后的数据块指纹上传到云环境中进行管理,生成元数据管理模块;

5、s3、将所述元数据管理模块中的所述数据块从本地文件上传到云环境中的容器后,所述数据块还会按照指定的冗余策略备份到不同的网络环境中的容器中,并更新元数据模块中的元数据信息,生成数据备份模块;

6、s4、将所述数据备份模块中的备份文件通过定期回收机制,引用文件元数据来删除不再使用的备份数据块和重复数据块得到新的备份文件,生成重复数据回收模块;

7、s5、将所述重复数据回收模块中新的备份文件按照访问频次分别存储到不同机房的不同存储介质上,生成冷热数据存储模块。

8、进一步的,在所述将本地文件上传到云环境容器中,将所述本地文件按照文件块进行拆分、组织,并生成指纹列表ufr,通过对比指纹的相似性进行去重得到数据块、数据备份信息、以及压缩后的数据块指纹,生成批量重复数据删除模块中,还包括,

9、s11、将所述数据块,按照经典的rabin指纹算法,通过滑动窗口的方式计算出不同数据块的指纹列表ufr,将所述指纹列表ufr的哈希值按照上传到云环境中的数据块个数进行取模分桶,得到分桶后的指纹列表ufr;

10、s12、将所述分桶后的指纹列表ufr对应的数据块按照原始文件进行分配,得到分桶后的数据块,并对所述分桶后的数据块按照原始文件中的偏移量进行排序;

11、s13、当数据块和数据块位置已知,并且将指纹按分桶去除了重复的数据块后,将对文件的元数据进行更新,并发送给元数据管理模块进行压缩存储,获取数据块和云环境的容器地址;

12、s14、基于获取的所述数据块引用地址和所述云环境的容器地址,对所述数据块进行上传,上传完成后,将新文件在云环境中标记为就绪。

13、进一步的,所述将所述批量重复数据删除模块中的数据块、数据备份信息、以及压缩后的数据块指纹上传到云环境中进行管理,生成元数据管理模块,还包括,

14、将所述数据块上传到云环境中,通过数据块自身的指纹信息fingidx,按照哈希函数进行分桶,得到分桶后的数据块,将所述分桶后的数据块按桶进行重复数据指纹对比。

15、进一步的,所述将所述元数据管理模块中的所述数据块从本地文件上传到云环境中的容器后,所述数据块会按照默认的冗余策略备份到不同的网络环境中的容器中,并更新元数据模块中的元数据信息,生成数据备份模块,还包括,

16、根据访问频次增加冗余数据块,冗余数据块增加公式如下所示:

17、 ;

18、其中, freq(x) 表示访问文件x 的频次,file_num表示该存储空间中的文件个数,rep_num表示默认的冗余备份策略的冗余个数,所述冗余策略备份默认副本数的个数为3。

19、进一步的,所述将所述数据备份模块中的备份文件通过定期回收机制,引用文件元数据来删除不再使用的备份数据块和重复数据块得到新的备份文件,生成重复数据回收模块,还包括,

20、s41、通过元数据的数据块引用地址,查找出没有被引用的数据块;

21、s42、解压数据块的指纹,对不同数据块的指纹采用 bloomfilter 算法进行匹配计算,找到重复的数据块;

22、s43、评估没有被引用的数据块和重复的数据块,若整个容器中所有的数据块都需要删除,则直接删除整个容器;

23、s44、若重写容器之后, t 天后能收回成本,则重写容器,评估公式如下:

24、;

25、当且仅当 x < 1.0时,重写容器比存储 t 天原本需要删除的数据带来的收益更高,此时才会重写,否则保留数据块;

26、s45,更新被删除的重复的数据块所对应的元数据。

27、第二方面,一种云环境系统重复数据删除的系统,包括,

28、批量重复数据删除模块,用于将本地文件上传到云环境容器中,将所述本地文件按照文件块进行拆分、组织,并生成指纹列表ufr,通过对比指纹的相似性进行去重得到数据块、数据备份信息、以及压缩后的数据块指纹,生成批量重复数据删除模块;

29、元数据管理模块,用于将所述批量重复数据删除模块中的数据块、数据备份信息、以及压缩后的数据块指纹上传到云环境中进行管理,生成元数据管理模块;

30、数据备份模块,用于将所述元数据管理模块中的所述数据块从本地文件上传到云环境中的容器后,所述数据块还会按照指定的冗余策略备份到不同的网络环境中的容器中,并更新元数据模块中的元数据信息,生成数据备份模块;

31、重复数据回收模块,用于将所述数据备份模块中的备份文件通过定期回收机制,引用文件元数据来删除不再使用的备份数据块和重复数据块得到新的备份文件,生成重复数据回收模块;

32、冷热数据存储模块,用于将所述重复数据回收模块中新的备份文件按照访问频次分别存储到不同机房的不同存储介质上,生成冷热数据存储模块。

33、进一步的,所述批量重复数据删除模块,还包括,

34、指纹列表ufr得到单元,用于将所述数据块,按照经典的rabin指纹算法,通过滑动窗口的方式计算出不同数据块的指纹列表ufr,将所述指纹列表ufr的哈希值按照上传到云环境中的数据块个数进行取模分桶,得到分桶后的指纹列表ufr。

35、分桶后的数据块排序单元,用于将所述分桶后的指纹列表ufr对应的数据块按照原始文件进行分配,得到分桶后的数据块,并对所述分桶后的数据块按照原始文件中的偏移量进行排序;

36、数据块和云环境的容器地址获取单元,用于当数据块和数据块位置已知,并且将指纹按分桶去除了重复的数据块后,将对文件的元数据进行更新,并发送给元数据管理模块进行压缩存储,获取数据块和云环境的容器地址;

37、文件标记单元,用于基于获取的所述数据块和所述云环境的容器地址,对所述数据块进行上传,上传完成后,将新文件在云环境中标记为就绪。

38、进一步的,所述元数据管理模块,还包括,

39、重复数据指纹对比单元,用于将所述数据块上传到云环境中,通过数据块自身的指纹信息fingidx,按照哈希函数进行分桶,得到分桶后的数据块,将所述分桶后的数据块按桶进行重复数据指纹对比。

40、进一步的,在将所述元数据管理模块中的所述数据块从本地文件上传到云环境中的容器后,所述数据块还会按照指定的冗余策略备份到不同的网络环境中的容器中,并更新元数据模块中的元数据信息中,还包括,

41、冗余数据块增加单元,用于根据访问频次增加冗余数据块;

42、冗余数据块增加公式如下所示:

43、 ;

44、其中, freq(x) 表示访问文件x 的频次,file_num表示该存储空间中的文件个数,rep_num表示默认的冗余备份策略的冗余个数,所述冗余策略备份默认副本数的个数为3。

45、进一步的,没有被引用的数据块查找子单元,用于通过元数据的数据块引用地址,查找出没有被引用的数据块;

46、重复的数据块查找子单元,用于解压数据块的指纹,对不同数据块的指纹采用bloomfilter 算法进行匹配计算,找到重复的数据块;

47、没有被引用的数据块和重复的数据块评估单元,用于评估没有被引用的数据块和重复的数据块,若整个容器中所有的数据块都需要删除,则直接删除整个容器;若重写容器之后, t 天后能收回成本,则重写容器,评估公式如下:

48、;

49、当且仅当 x < 1.0时,重写容器比存储 t 天原本需要删除的数据带来的收益更高,此时才会重写,否则保留数据块;

50、元数据更新子单元,用于更新被删除的重复的数据块所对应的元数据。

51、本技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:

52、1、通过设计元数据管理模块,批量重复数据删除模块,数据备份模块,重复数据回收模块和冷热数据存储模块实现了对云环境中重复数据的可靠检测;

53、2、设计了基于成本的批量重复数据删除模块,采用成本评估的方式,比较重写数据块和保留重复数据之间的成本开销;

54、3、 设计了冷热存储和数据备份,保证数据安全性和访问效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1