一种可删除重复数据的大数据存储系统的制作方法

文档序号:9616085阅读:253来源:国知局
一种可删除重复数据的大数据存储系统的制作方法
【技术领域】
[0001]本发明属于信息技术领域,具体的是一种可删除重复数据的大数据存储系统。
【背景技术】
[0002]伴随着全球化电子商务、无纸化办公和云计算的大规模开展,在各种应用系统的存储设备上,信息正以数据存储的TB甚至是PB级方式高速增长.正如EMCCE0乔图斯对股东们说的那样“IT行业出现了最势不可挡的两种趋势:云计算和海量数据”。伴随着云计算的迅猛发展,海量数据的高效存储需求和管理成为一个研究的重点。

【发明内容】

[0003]针对上述现有技术,本发明提出了一种可删除重复数据的大数据存储系统,具体技术方案如下:
一种可删除重复数据的大数据存储系统,包括自动精简的属性设置和重删技术的属性设置;自动精简的属性设置建立的NAS分区可以创建大于物理存储的逻辑卷,各个逻辑卷共享整个存储池的大小,使用setquota设置逻辑卷的大小.建立的SAN分区可以创建大于物理存储大小的逻辑卷,建立的分区大小是自己设定的,独立于存储池大小之外,但可用存储池的大小还是原来存储池的大小,只是在分区显示时存储池的利用率是假象还是真实的情况,使用zfscreate-s-bl28K_V设置逻辑卷的大小;映射出来的磁盘就是自动精简配置设置的大小,但可用的容量还是原来总存储池的大小,当LiveStor管理员通过设置的存储池告警获得警告信息,就要按需扩容后端存储,添加硬盘,为用户提供持续可用的高效存储;
重删技术的属性设置的重删功能是基于块级的重复数据删除,默认使用的是SHA-256,不作校验;利用SHA-256哈希函数提供数据块级重复数据删除功能,开启重复数据删除的LiveStor需要较强的处理能力,因此提高处理器能力和内存就可以提高重复数据删除的速度;对重复数据删除技术设置了 3个属性值,分别为on,off, verify ;当属性设置为on时,这种方法是在重删技术中速度最快的,因为它是按块的哈希值进行对比重删的,但是这种重删存在2256的可能性将不同的数据作为相同的哈希值来删除;为了确保散列重复数据删除的安全性,可以将重删功能的属性值设为verify,让存储数据进行全部字节对比;针对重复数据删除,也可以使用改进的、简单的散列算法来减少所需的处理能力,并将它与验证功能结合在一起以提高重复数据删除的整体速度;重复数据删除功能可根据文件系统的大小进行调整块的大小,设置块大小为128KB,块的大小可以自动配置,重删技术可以有选择地设置,可以针对包含重复多的数据,在存储时就进行重复数据删除工作,节约硬盘的使用,对重复数据少的数据不进行重删,提高数据的读写速度。
[0004]有益效果:
1.本发明提出的大数据存储系统具有高性能、高可用性、易用、易管理的特点。能提高存储性能,减少环境的压力,降低总体实现成本,降低能耗和降低二氧化碳排放量,符合绿色存储的要求。
[0005]2.本发明提出的大数据存储系统不仅提供高效存储,还能基于快照技术为用户提供本地逻辑分区的持续数据保护,结合本地CDP提供远程复制和恢复功能,满足生产运行的连续性和灾难恢复的需求,最大程度地保护用户数据安全。
【具体实施方式】
[0006]—种可删除重复数据的大数据存储系统,包括自动精简的属性设置和重删技术的属性设置;
自动精简的属性设置建立的NAS分区可以创建大于物理存储的逻辑卷,各个逻辑卷共享整个存储池的大小,使用setquota设置逻辑卷的大小.建立的SAN分区可以创建大于物理存储大小的逻辑卷,建立的分区大小是自己设定的,独立于存储池大小之外,但可用存储池的大小还是原来存储池的大小,只是在分区显示时存储池的利用率是假象还是真实的情况,使用zfscreate-s-bl28K_V设置逻辑卷的大小;映射出来的磁盘就是自动精简配置设置的大小,但可用的容量还是原来总存储池的大小,当LiveStor管理员通过设置的存储池告警获得警告信息,就要按需扩容后端存储,添加硬盘,为用户提供持续可用的高效存储;重删技术的属性设置的重删功能是基于块级的重复数据删除,默认使用的是SHA-256,不作校验;利用SHA-256哈希函数提供数据块级重复数据删除功能,开启重复数据删除的LiveStor需要较强的处理能力,因此提高处理器能力和内存就可以提高重复数据删除的速度;对重复数据删除技术设置了 3个属性值,分别为on,off, verify ;当属性设置为on时,这种方法是在重删技术中速度最快的,因为它是按块的哈希值进行对比重删的,但是这种重删存在2256的可能性将不同的数据作为相同的哈希值来删除;为了确保散列重复数据删除的安全性,可以将重删功能的属性值设为verify,让存储数据进行全部字节对比;针对重复数据删除,也可以使用改进的、简单的散列算法来减少所需的处理能力,并将它与验证功能结合在一起以提高重复数据删除的整体速度;重复数据删除功能可根据文件系统的大小进行调整块的大小,设置块大小为128KB,块的大小可以自动配置,重删技术可以有选择地设置,可以针对包含重复多的数据,在存储时就进行重复数据删除工作,节约硬盘的使用,对重复数据少的数据不进行重删,提高数据的读写速度。
【主权项】
1.一种可删除重复数据的大数据存储系统,包括自动精简的属性设置和重删技术的属性设置; 自动精简的属性设置建立的NAS分区可以创建大于物理存储的逻辑卷,各个逻辑卷共享整个存储池的大小,使用setquota设置逻辑卷的大小.建立的SAN分区可以创建大于物理存储大小的逻辑卷,建立的分区大小是自己设定的,独立于存储池大小之外,但可用存储池的大小还是原来存储池的大小,只是在分区显示时存储池的利用率是假象还是真实的情况,使用zfscreate-s-bl28K_V设置逻辑卷的大小;映射出来的磁盘就是自动精简配置设置的大小,但可用的容量还是原来总存储池的大小,当LiveStor管理员通过设置的存储池告警获得警告信息,就要按需扩容后端存储,添加硬盘,为用户提供持续可用的高效存储; 重删技术的属性设置的重删功能是基于块级的重复数据删除,默认使用的是SHA-256,不作校验;利用SHA-256哈希函数提供数据块级重复数据删除功能,开启重复数据删除的LiveStor需要较强的处理能力,因此提高处理器能力和内存就可以提高重复数据删除的速度;对重复数据删除技术设置了 3个属性值,分别为on,off, verify ;当属性设置为on时,这种方法是在重删技术中速度最快的,因为它是按块的哈希值进行对比重删的,但是这种重删存在2256的可能性将不同的数据作为相同的哈希值来删除;为了确保散列重复数据删除的安全性,可以将重删功能的属性值设为verify,让存储数据进行全部字节对比;针对重复数据删除,也可以使用改进的、简单的散列算法来减少所需的处理能力,并将它与验证功能结合在一起以提高重复数据删除的整体速度;重复数据删除功能可根据文件系统的大小进行调整块的大小,设置块大小为128KB,块的大小可以自动配置,重删技术可以有选择地设置,可以针对包含重复多的数据,在存储时就进行重复数据删除工作,节约硬盘的使用,对重复数据少的数据不进行重删,提高数据的读写速度。
【专利摘要】本发明属于信息技术领域,具体的是一种可删除重复数据的大数据存储系统。重复数据删除功能可根据文件系统的大小进行调整块的大小,设置块大小为128KB,块的大小可以自动配置,重删技术可以有选择地设置,可以针对包含重复多的数据,在存储时就进行重复数据删除工作,节约硬盘的使用,对重复数据少的数据不进行重删,提高数据的读写速度。
【IPC分类】G06F3/06
【公开号】CN105373349
【申请号】CN201510744661
【发明人】温立平
【申请人】江苏翰诺信息科技发展有限公司
【公开日】2016年3月2日
【申请日】2015年10月30日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1