一种备份服务器的数据重删方法

文档序号：6545634阅读：249来源：国知局

一种备份服务器的数据重删方法
【专利摘要】本发明提供一种备份服务器的数据重删方法，其具体操作过程如下：在备份服务器的硬盘组成的逻辑卷上划分一个分区用于临时存放要备份在该服务器上的数据，该分区承担数据缓存作用；对上述分区中缓存的数据进行块分割，并以块为一个计算单，计算出其hash值保存在数据库中；将hash值进行对比，即将每次备份的新数据的hash值与库中已存hash值进行比对，若相同则为重复数据；若不相同则为非重复数据，并将该数据块的hash值添加到hash库中。该一种备份服务器的数据重删方法和现有技术相比，可以有效的对重复数据进行重删，大大节省了存储空间，在一定程度上节约存储空间，从而降低企业的运营成本。
【专利说明】一种备份服务器的数据重删方法
【技术领域】
[0001]本发明涉及计算机【技术领域】，具体的说是一种有效提高系统运行速度和质量的备份服务器的数据重删方法。
【背景技术】
[0002]重复数据删除技术的核心理念是:在存储数据时检查和比较已存在的数据，如果它们是相同的，那么就过滤掉这部分数据的备份，然后通过指针引用已存在的数据。重复数据删除目前是存储领域一个比较热门的研究课题，因为它能给整个存储系统甚至是整个企业带来很多明显的好处。显然，重复数据删除可以从根本上减少存储占用的空间和用户的磁盘驱动器数量，减轻人力、能源、电力资源等方面的开销，从而大幅度的节约存储成本。另夕卜，重复数据删除可以减少在网络中传输的数据量，进而降低能量消耗和网络成本，并为数据复制大量节省网络带宽。
[0003]当备份程序在网络中多次从同一目录下备份相同的文件，或者从多个地址处备份相同的文件时，重复的数据在临时区域进行备份，大部分网络上的重复数据量令人吃惊，t匕如一台备份服务器，备份本公司100个员工的邮件，这100个员工每天有相当一部分人收到的是相同的邮件，如果同一封邮件被80个人保存，那么这些数据从80个用户保存在他们备份服务器上就有80份，随着每日用户邮件量的增长，重复邮件的数量也越来越大。对于同一台备份服务器来说，往往会产生重复数据的备份要求，如果将重复数据删除，自然会大大减少对存储空间的占用。
[0004]有时候为了能够将重复数据删除，企业需要派专人专项负责删除工作，删除过程繁琐且易出错，容易导致备份数据的丢失，因而，如何能够保证在数据不丢失的情况下，自动完成备份服务器的重复数据删除动作成为未来的发展趋势，尤其对于小型企业而言，存储空间的节约，能够大大降低企业的运营成本，基于此，现提供一种在备份服务器上可有效将重复数据进行重删的方法。

【发明内容】

[0005]本发明的技术任务是解决现有技术的不足，提供一种降低企业运营成本、节约存储空间的备份服务器的数据重删方法。
[0006]本发明的技术方案是按以下方式实现的，该一种备份服务器的数据重删方法，其具体操作过程如下:
在备份服务器的硬盘组成的逻辑卷上划分一个分区用于临时存放要备份在该服务器上的数据，该分区承担数据缓存作用；
对上述分区中缓存的数据进行块分割，并以块为一个计算单，计算出其hash值保存在数据库中；
将hash值进行对比，即将每次备份的新数据的hash值与库中已存hash值进行比对，若相同则为重复数据；若不相同则为非重复数据，并将该数据块的hash值添加到hash库中。
[0007]所述步骤一中的逻辑卷是指由三块以上的硬盘组建成的一个RAID5的逻辑卷，该逻辑卷在使用时先保存下需要备份的所有的数据，再根据步骤三中的判断，将此缓存中的非重复性数据保存在服务器上，重复性数据用指针代替，当删除重复的数据动作完成后，该逻辑卷执行快速格式化，等待用户下次的备份数据。
[0008]所述步骤二的数据分割的详细过程为:首先定义块大小，然后根据定义好的块大小对文件进行切分，并进行hash函数值计算，该hash函数值是指弱校验值和md5强校验值，即先计算弱校验值并进行hash查找,如果发现则计算md5强校验值并作进一步hash查找。
[0009]所述步骤三的详细过程为:将步骤二计算出hash函数值组成hash函数值库，单独保存在分区的一个固定位置，每次备份新数据的hash值都与该hash函数值库中的hash值作比对，若hash值的数据块相同，则保存一个指针，该指针指向重复数据的存储位置；若hash值的数据块不同，则为非重复数据，将此数据块保存在此备份服务器的一个唯一数据区内，并且此数据块的hash值添加在hash库中。
[0010]本发明与现有技术相比所产生的有益效果是:
本发明的一种备份服务器的数据重删方法将重复性的数据使用指针代替，而逻辑上仍然是完整的数据，可以有效的对重复数据进行重删，大大节省了存储空间，在一定程度上节约存储空间，从而降低企业的运营成本；适用范围广泛，尤其适用于中小企业中的备份应用，如邮件备份系统，常用资料备份系统等多用户备份过程中包含一些重复性数据的备份任务，可以有效的删除重复数据，只保留唯一数据，有效的节约存储磁盘空间，从而降低成本，实用性强，易于推广。
【专利附图】

【附图说明】
[0011]附图1为本发明的备份服务器模块示意图；
附图2为本发明的数据分割步骤示意图；
附图3为本发明的hash对比步骤示意图；
附图4为采用现有技术备份的实施例示意图；
附图5为采用本发明备份的实施例示意图。
【具体实施方式】
[0012]下面结合附图对本发明的一种备份服务器的数据重删方法作以下详细说明。
[0013]现提供一种备份服务器的数据重删方法，首先搭建其实施的基础:备份服务器，在该备份服务器如附图1所示，该服务器上设置有四个模块数据缓存模块、数据分割模块、hash对比模块和唯一数据存储模块。
[0014]其中数据缓存模块的搭建是指在Raid5组成的逻辑卷上，划分一个分区用于临时存放要备份在此服务器上的数据，此分区的大小，可根据用户的备份习惯(一次备份数据量的大小)而定。
[0015]数据分割模块用于将数据缓存模块中的数据进行块分割，以块为一个计算单，将其hash值与下面里的对比模块里的hash集里的数据作比对。[0016]hash对比模块用于对数据缓存分区里的数据进行块分割，以块为一个计算单，计算出它的hash函数值(通常用MD5或SHA-1)，并将这些hash函数值组织成hash函数值库，单独保存在分区的一个位置，每次备份新数据的hash与库中的hash比对，若值相同即为重复数据；反之为非重复数据，需要将此数据块保存在此服务器的唯一数据区内，并且此数据块的hash值也要添加在hash库中。
[0017]唯一数据模块则是在备份需求提出后，先存储数据在缓存模块中，再进入数据分割模块，计算出hash值后再进入hash对比模块，若hash值相同即为重复数据；反之为非重复数据，即为唯一数据，需要保存在此服务器的指定分区上。
[0018]进一步的，该数据重删方法是在上述备份服务器的四个模块之间完成的，如附图
2、图3所示，其具体实现过程为:
一、在备份服务器上用3块以上的硬盘组建一个Raid5的逻辑卷，该逻辑卷在使用时先保存下需要备份的所有的数据，再根据步骤三中的判断，将此缓存中的非重复性数据保存在服务器上，重复性数据用指针代替，当删除重复的数据动作完成后，该逻辑卷执行快速格式化，等待用户下次的备份数据；
二、对保存在数据缓存里的数据进行块分割，采用预先定义好的块大小对文件进行切分，并进行弱校验值和md5强校验值。弱校验值主要是为了提升差异编码的性能，先计算弱校验值并进行hash查找,如果发现则计算md5强校验值并作进一步hash查找。由于弱校验值计算量要比md5小很多，因此可以有效提高编码性能；
三、将步骤二计算出hash函数值组成hash函数值库,单独保存在分区的一个固定位置，每次备份新数据的hash值都与该hash函数值库中的hash值作比对,若hash值的数据块相同，则保存一个指针，该指针指向重复数据的存储位置；若hash值的数据块不同，则为非重复数据，证明此数据块是新数据内容，之前没有存储过，需要把此数据块保存在该备份服务器的数据分区里，并且此数据块的hash值添加在hash库中。
[0019]如附图4、图5所示的实施例，该实施例以一个企业，每周五天的备份数据量的增长示意图为例，每日都会产生大量的重复数据，占用了存储资源，增加生产成本，这时采用本发明的方法将重复的数据删除，即将附图中加黑的数据删除，每日重复进行，则可以看出，数据备份总量明显减少。
[0020]以上所述仅为本发明的实施例而已，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
【权利要求】
1.一种备份服务器的数据重删方法，其特征在于其具体操作过程如下: 一、在备份服务器的硬盘组成的逻辑卷上划分一个分区用于临时存放要备份在该服务器上的数据，该分区承担数据缓存作用；二、对上述分区中缓存的数据进行块分割，并以块为一个计算单，计算出其hash值保存在数据库中；三、将hash值进行对比，即将每次备份的新数据的hash值与库中已存hash值进行比对，若相同则为重复数据；若不相同则为非重复数据，并将该数据块的hash值添加到hash库中。
2.根据权利要求1所述的一种备份服务器的数据重删方法，其特征在于:所述步骤一中的逻辑卷是指由三块以上的硬盘组建成的一个RAID5的逻辑卷，该逻辑卷在使用时先保存下需要备份的所有的数据，再根据步骤三中的判断，将此缓存中的非重复性数据保存在服务器上，重复性数据用指针代替，当删除重复的数据动作完成后，该逻辑卷执行快速格式化，等待用户下次的备份数据。
3.根据权利要求1或2所述的一种备份服务器的数据重删方法，其特征在于:所述步骤二的数据分割的详细过程为:首先定义块大小，然后根据定义好的块大小对文件进行切分，并进行hash函数值计算，该hash函数值是指弱校验值和md5强校验值，即先计算弱校验值并进行hash查找,如果发现则计算md5强校验值并作进一步hash查找。
4.根据权利要求3所述的一种备份服务器的数据重删方法，其特征在于:所述步骤三的详细过程为:将步骤二计算出hash函数值组成hash函数值库，单独保存在分区的一个固定位置，每次备份新数据的hash值都与该hash函数值库中的hash值作比对,若hash值的数据块相同，则保存一个指针，该指针指向重复数据的存储位置；若hash值的数据块不同，则为非重复数据，将此数据块保存在此备份服务器的一个唯一数据区内，并且此数据块的hash值添加在hash库中。
【文档编号】G06F3/06GK103970852SQ201410186755
【公开日】2014年8月6日申请日期:2014年5月6日优先权日:2014年5月6日
【发明者】付丽莉, 于建彬申请人:浪潮电子信息产业股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：付丽莉;于建彬
技术所有人：浪潮电子信息产业股份有限公司
我是此专利的发明人

上一篇：优化搜索引擎的方法及装置制造方法
上一篇：备份节点确定方法、装置及拼接墙系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。