本发明所涉及的大体来说是数据存储系统,更具体来说是数据存储系统中的垃圾收集及数据压缩。
背景技术:
1、数据存储系统存在许多类型及架构,其具有各种类型的存储式存储器及针对数据可靠性及数据存储效率的各种方案。许多存储系统在存储式存储器中采用垃圾收集,其中在存储式存储器中对实时数据重新定位,使得可擦除并再使用具有死数据的擦除块,也称作回收存储式存储器。许多存储系统采用各种类型的数据压缩,其中辨识并压缩相同及/或相似数据以实现较大数据存储效率。重复数据删除是针对数据存储效率的另一策略。随着存储系统纵向扩展且因对更多数据的存储的不断增加的需要,持续需要数据存储技术、垃圾收集技术及数据压缩技术的改进。在计算及数据存储技术的此环境中产生了本发明实施例。
技术实现思路
1.一种存储系统,其包括:
2.根据权利要求1所述的存储系统,其中所述确定所述多个数据分段的所述内容相似度包括基于所述哈希结果根据跨越所述多个数据分段应用的相似度度量确定所述数据分段的数据的部分的相似度。
3.根据权利要求1所述的存储系统,其中所述确定所述多个数据分段的所述内容相似度包括基于所述哈希结果根据跨越所述多个数据分段应用的不相似度度量确定所述数据分段的数据的部分的不相似度。
4.根据权利要求1所述的存储系统,其中所述确定所述多个数据分段的所述内容相似度包括基于所述哈希结果确定数据分段之间的杰卡德距离。
5.根据权利要求1所述的存储系统,其中所述对所述多个数据分段中的所述两个或更多个数据分段的所述实时数据执行所述数据压缩包括执行辨识所述两个或更多个数据分段中的数据的相同部分的数据压缩。
6.根据权利要求1所述的存储系统,其中所述对所述多个数据分段中的所述两个或更多个数据分段的所述实时数据执行所述数据压缩包括执行记录所述两个或更多个数据分段中的数据的相似部分当中的差异的数据压缩。
7.根据权利要求1所述的存储系统,其中所述获得所述哈希值包括:
8.根据权利要求1所述的存储系统,其中所述获得所述哈希值包括:
9.根据权利要求1所述的存储系统,其中所述处理装置进一步用以基于年龄、脏百分比或其它数据特性选择所述存储式存储器中的其它数据分段以供进行所述垃圾收集。
10.一种存储系统中的数据压缩方法,其包括:
11.根据权利要求10所述的方法,其中所述确定跨越所述多个数据分段的所述内容相似度包括基于所述哈希值确定所述多个数据分段中的两个或更多个数据分段之间的杰卡德距离,且其中获得所述哈希值包括获得所述多个数据分段的多个部分的哈希值。
12.根据权利要求10所述的方法,其中所述对所述多个数据分段中的所述两个或更多个数据分段的所述实时数据执行所述数据压缩包括执行辨识并压缩所述两个或更多个数据分段中的数据的相似部分的数据压缩。
13.根据权利要求10所述的方法,其中所述获得所述哈希值包括:
14.根据权利要求10所述的方法,其中所述获得所述哈希值包括:
15.根据权利要求10所述的方法,其进一步包括基于所述存储式存储器中的其它数据分段的年龄、脏百分比或其它数据特性选择所述其它数据分段以供进行所述垃圾收集及所述数据压缩。
16.一种有形非暂时性计算机可读媒体,其上具有指令,所述指令在由处理装置执行时致使所述处理装置执行包括以下各项的方法:
17.根据权利要求16所述的计算机可读媒体,其中所述确定所述多个数据分段的所述内容相似度包括基于所述哈希结果根据跨越所述多个数据分段应用的杰卡德距离确定所述数据分段的数据的部分的相似度。
18.根据权利要求16所述的计算机可读媒体,其中所述对所述多个数据分段中的所述两个或更多个数据分段的所述实时数据执行所述数据压缩包括执行压缩所述两个或更多个数据分段中的数据的相似部分的数据压缩。
19.根据权利要求16所述的计算机可读媒体,其中所述获得所述哈希结果包括:
20.根据权利要求16所述的计算机可读媒体,其中所述获得所述哈希结果包括: