点对点传输的重复数据删除处理方法及其系统的制作方法

文档序号:7682560阅读:128来源:国知局
专利名称:点对点传输的重复数据删除处理方法及其系统的制作方法
技术领域
本发明涉及一种重复数据删除方法及其系统,特别涉及一种点对点传输的重复数据删除处理方法及其系统。
背景技术
重复数据删除是一种数据缩减技术,通常用于基于磁盘的备份系统,主要目的在于减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块。重复的数据块可以用指示符取代。由于存储系统中总是充斥着大量的冗余数据。为了解决这个问题,节省更多空间,“重复删除”技术便顺理成章地成了人们关注的焦点。此一技术对于企业内部(或局域网络中)的客户端的文件备份是有所 帮助的。现有技术的客户端欲进行输入文件的复原,客户端需要向数据存储服务器发出文件回复要求,并从数据存储服务器取得相应的切分数据块。一般而言,在局域网络中会设置单一的数据存储服务器,请参考图IA所示,其是为现有技术的架构示意图。由于单一数据存储服务器110得同时应付多台客户端120所发出的存取要求。因此数据存取服务器的频宽就成为输入文件回复的一个重要关键。若是数据存取服务器的频宽越大,各客户端120可以更加快速的取得所要的切分数据块,并进行文件的回复处理。当局域网络中的客户端120的数量众多时,对于数据存取服务器的频宽也会严重的被耗尽。如此一来,各客户端120将无法顺利取得所需的切分数据块。因此,为改善单一数据存取服务器所产生的问题,因此有人提出分布式数据存储服务器110的概念,请参考图IB所示,其为现有技术的分布式数据存储服务器架构示意图。在此一架构中具有信息管理服务器与多台数据存储服务器110。信息管理服务器130用以接收客户端120所发出的要求,信息管理服务器130根据数据存储服务器110的运作状态,再从中选择一适当的数据存储服务器110。由选出的数据存储服务器110将切分数据块传输给客户端120。这样的存取方式,虽然可以解决数据存储服务器110的频宽不足的问题。但就整体而言,信息管理服务器130是所有系统的瓶颈。原因在于信息管理服务器130需要管理来自客户端120的切分数据块对于数据存储服务器110的储存调派,还另外需要将切分数据块从数据存储服务器110传送客户端120。因此,分布式数据存储服务器仍有其存取的限制。

发明内容
鉴于以上的问题,本发明的目的在于提供一种点对点传输的重复数据删除处理方法,应用在发起客户端对已经过重复数据删除程序的输入文件进行回复的处理。本发明所揭露的点对点传输的重复数据删除处理方法,包括以下步骤将发出文件回复要求的客户端定义为发起客户端,其余的客户端定义为目标客户端;发起客户端或目标客户端在完成重复数据删除程序后向信息管理服务器登记所属的切分数据块;发起客户端向信息管理服务器与数据存储服务器发出文件回复要求,用以取得输入文件的多笔切分数据块;若信息管理服务器存在文件回复要求中的切分数据块,则信息管理服务器根据文件回复要求查找数据存储服务器,并将所查找出的数据存储服务器与所属的切分数据块回应给发起客户端,若目标客户端存在文件回复要求中的切分数据块,则目标客户端将切分数据块传送给发起客户端;发起客户端根据从目标客户端与数据存储服务器所取得切分数据块,发起客户端将切分数据块进行输入文件的数据回复。本发明还提出一种点对点传输的重复数据删除处理系统,包括至少一客户端、数据存储服务器与信息管理服务器。客户端将输入文件进行重复数据删除程序并产生相应该输入文件的切分数据块;将发出文件回复要求的客户端定义为发起客户端,其余为目标客户端;若信息管理服务器存在文件回复要求中的切分数据块,则信息管理服务器根据文件回复要求查找数据存储服务器,并将所查找出的数据存储服务器与所属的切分数据块回应给发起客户端,若目标客户端存在文件回复要求中的切分数据块,则目标客户端将切分数据块传送给发起客户端;发起客户端根据从目标客户端与数据存储服务器所取得切分数据 块,发起客户端将切分数据块进行输入文件的数据回复。本发明提供一种点对点传输的重复数据删除的处理方法及其系统,使得发起客户端除了可以由数据存储服务器取得相应的切分数据块外,也可以从其它目标客户端取得其它的切分数据块。如此一来,就可以加快发起客户端输入文件的数据回复的存取速度,进而快速的完成输入文件的复原。以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。


图IA为现有技术的架构示意图;图IB为现有技术的分布式数据存储服务器架构示意图;图2为本发明的架构示意图;图3为本发明的运作流程示意图;图4为本发明的发起客户端的取得切分数据块的操作示意图。其中,附图标记数据存储服务器110客户端120信息管理服务器130客户端210发起客户端211目标客户端212数据存储服务器220信息管理服务器230重复数据删除程序240切分数据块250编号10的切分数据块25具体实施例方式下面结合附图对本发明的结构原理和工作原理作具体的描述请参考图2所示,其为本发明的架构示意图。本发明的重复数据删除系统包括至少一客户端210、数据存储服务器220与信息管理服务器230。客户端210可以通过因特网(Internet)或企业内网(intranet)的方式连接于数据存储服务器220与信息管理服务器230。在客户端210上·运行重复数据删除程序240。客户端210在对输入文件进行重复数据删除程序240后,会产生相应的切分数据块250。请参考图3所示,其为本发明的运作流程示意图。步骤S310 :客户端运行重复数据删除程序,并产生切分数据块;步骤S320 :当客户端完成切分数据块后,客户端向信息管理服务器登记所属的这些切分数据块;步骤S330 :发起客户端向信息管理服务器与至少一目标客户端发出文件回复要求,用以取得输入文件的多笔切分数据块;步骤S340 :若信息管理服务器存在文件回复要求中的切分数据块,则信息管理服务器根据文件回复要求查找数据存储服务器,并将所查找出的数据存储服务器与所属的切分数据块回应给发起客户端;步骤S350 :若目标客户端存在文件回复要求中的切分数据块,则目标客户端将切分数据块传送给发起客户端;以及步骤S360 :发起客户端根据从目标客户端与数据存储服务器所取得切分数据块,发起客户端将切分数据块进行输入文件的数据回复。首先,客户端210对输入文件进行切分处理,并产生多组切分数据块250与相应每一区块的哈希值。计算哈希值的算法可以为SHA-I或MD5等。而切分数据块250的切割算法可以通过固定长度分割方式(fixed size partition)或基于内容变长度分割方式(content defined chunking, Q)C)所实现。当客户端210完成切分数据块250后,客户端210向信息管理服务器230登记所属的这些切分数据块250。并由信息管理服务器230指派相应的数据存储服务器220用以储存切分数据块250。为能清楚说明,因此将发出文件回复要求的客户端210定义为发起客户端211,其余为目标客户端212。接着,发起客户端211欲进行文件的复原处理。发起客户端211会先向信息管理服务器230发出文件回复要求,并在文件回复要求纪录所需的切分数据块250。于此同时,发起客户端211也会向其它目标客户端212发出相同的文件回复要求。信息管理服务器230会根据文件回复要求查找相应的数据存储服务器220,并将该数据存储服务器220的运作状态(例如当前传输频宽、切分数据块250的数量、或运作负载值等)回应给发起客户端211。而目标客户端212在接收到文件回复要求时,目标客户端212会查找是否具有所要求的该项切分数据块250。若目标客户端212具有该切分数据块250时,目标客户端212将会把具有的部分的切分数据块250回应给发起客户端211。数据存储服务器220与目标客户端212在回应发起客户端211时会另外传输一传送推估值,传送推估值中纪录当前传输频宽、切分数据块250的数量、运作负载值与切分数据块250的编号等信息。发起客户端211根据传送推估值决定从目标客户端212或数据存储服务器220取得不同部分的切分数据块250。为清楚说明此一传送过程,还请配合图4所示,其为本发明的发起客户端的取得切分数据块的操作示意图。在图4中发起客户端211是为客户端A,目标客户端212是为客户端B,而数据存储服务器220具有编号I n的切分数据块250若发起客户端211欲存取编号10的切分数据块251,则发起客户端211会向目标客户端212或数据存储服务器220发出索取编号10的切分数据块251的文件回复要求。假设数据存储服务器220具有完整的编号10的切分 数据块251,而目标客户端212具有部分的编号10的切分数据块251 (图4中的虚线框的部分)。假设数据存储服务器220可以完全的提供切分数据块250的状态时,发起客户端211则直接向数据存储服务器220取得完整的编号10的切分数据块251。假设数据存储服务器220的频宽(或负载)在满载的情况下,因此发起客户端211除了向数据存储服务器220提出取得部分切分数据块250的要求外,发起客户端211会同时的向目标客户端212发出取得另一部分的切分数据块250。同理,当其它目标客户端212具有不同部分的切分数据块250时,发起客户端211将会以轮询的方式提出文件回复要求,直至取得所有切分数据块250为止。最后,发起客户端211根据从目标客户端212与数据存储服务器220所取得切分数据块250,发起客户端211将切分数据块250进行输入文件的数据回复。本发明提供一种点对点传输的重复数据删除的处理方法及其系统,使得发起客户端211除了可以由数据存储服务器220取得相应的切分数据块250外,也可以从其它目标客户端212取得其它的切分数据块250。如此一来,就可以加快发起客户端211输入文件的数据回复的存取速度,进而快速的完成输入文件的复原。当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
权利要求
1.一种点对点传输的重复数据删除处理方法,应用在一发起客户端对已经过一重复数据删除程序的一输入文件进行回复的处理,其特征在于,该处理方法包括 该发起客户端向一信息管理服务器与至少一目标客户端发出一文件回复要求,用以取得该输入文件的多笔切分数据块; 若该信息管理服务器存在该文件回复要求中的该切分数据块,则该信息管理服务器根据该文件回复要求查找一数据存储服务器,并将所查找出的该数据存储服务器与所属的该切分数据块回应给该发起客户端; 若该目标客户端存在该文件回复要求中的该切分数据块,则该目标客户端将该切分数据块传送给该发起客户端;以及 该发起客户端根据从该些目标客户端与该数据存储服务器所取得该切分数据块,该发起客户端将该些切分数据块进行该输入文件的数据回复。
2.根据权利要求I所述的点对点传输的重复数据删除处理方法,其特征在于,该发起客户端与该目标客户端储存不同的该些切分数据块。
3.根据权利要求I所述的点对点传输的重复数据删除处理方法,其特征在于,该发起客户端或该目标客户端在完成该重复数据删除程序后向该信息管理服务器登记所属的该些切分数据块。
4.根据权利要求I所述的点对点传输的重复数据删除处理方法,其特征在于,该发起客户端根据一传送推估值决定从该些目标客户端或该数据存储服务器取得相应的该切分数据块。
5.一种点对点传输的重复数据删除处理系统,应用在客户端将已经过一重复数据删除程序的一输入文件进行回复的处理,其特征在于,处理系统包括 至少一客户端,其将该输入文件进行该重复数据删除程序并产生相应该输入文件的该些切分数据块,将发出一文件回复要求的该客户端定义为一发起客户端,其余为一目标客户端; 一数据存储服务器,用以储存多笔切分数据块;以及 一信息管理服务器,记录具有该些切分数据块的该客户端; 其中,若该信息管理服务器纪录该文件回复要求中的该切分数据块,则该信息管理服务器根据该文件回复要求查找其它具有该切分数据块的该些目标客户端,并将所查找出的该些目标客户端与所属的该切分数据块回应给该发起客户端,该发起客户端根据从该些目标客户端与该数据存储服务器所取得该切分数据块,该发起客户端将该些切分数据块进行该输入文件的数据回复。
6.根据权利要求5所述的点对点传输的重复数据删除处理系统,其特征在于,该发起客户端或该目标客户端在完成该重复数据删除程序后向该信息管理服务器登记所属的该些切分数据块。
7.根据权利要求5所述的点对点传输的重复数据删除处理系统,其特征在于,该发起客户端根据一传送推估值决定从该些目标客户端或该数据存储服务器取得相应的该切分数据块。
全文摘要
一种点对点传输的重复数据删除处理方法及其系统,其包括发起客户端向信息管理服务器与数据存储服务器发出文件回复要求,用以取得输入文件的多笔切分数据块;若信息管理服务器存在文件回复要求中的切分数据块,信息管理服务器根据文件回复要求查找数据存储服务器,将所查找出的数据存储服务器与所属的切分数据块回应给发起客户端,若目标客户端存在文件回复要求中的切分数据块,目标客户端将切分数据块传送给发起客户端;发起客户端根据从目标客户端与数据存储服务器所取得切分数据块,发起客户端将切分数据块进行输入文件的数据回复。
文档编号H04L29/08GK102801757SQ20111014571
公开日2012年11月28日 申请日期2011年5月25日 优先权日2011年5月25日
发明者刘威, 陈志丰 申请人:英业达股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1