一种索引方法

文档序号:6432238阅读:177来源:国知局
专利名称:一种索引方法
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种基于分布式的索引方法。
背景技术
数据的快速增长及数据的高可用性、安全性的要求刺激了数据备份技术的发展。 根据调查数据显示,企业的信息系统可能遭遇的各类灾难中,发生自然灾难的机率仅为 3%,而有超过95%的数据丢失是发生在本地站点,其中,47%是硬件级别的故障,例如主板、RAID控制器、网卡、内置/外置存储等设施出现问题,还有高达53%的灾难成因是“软” 错误,例如数据误删除、黑客/病毒攻击、系统崩溃、打补丁造成不稳定等等。随着信息系统逐步上升为企业生产运行的中枢,保障信息系统的安全、稳定早已成为保证企业生产持续运行的关键。为了保证企业数据安全,企业采用传统的磁带备份、基于磁盘的备份、Cluster/HA等数据保护机制对于上述的‘软’、‘硬’灾难都只能提供有限的保护,为企业的信息系统建立起有效的备份与容灾体系。从目前企业的应用来看对数据的备份技术依然是企业应对数据保护的最主要技术和方法。索引技术是对备份数据进行管理的关键技术,有效的索引技术能够保证备份数据的可靠性和备份效率。传统的索引技术一般通过在本地建立对备份数据的索引,通过记录数据的相关信息,在数据恢复时通过索引找到需要恢复的数据,从而时间数据保护,但这种索引一般记录在某一台备份介质服务器上,一旦备份介质服务器出现故障,就会造成索引丢失,从而导致备份的数据变成无效数据,数据索引可靠性较差。

发明内容
本发明提供了一种索引方法,解决了数据索引可靠性较差的问题。一种索引方法,包括为备份数据构建三级索引结构,所述三级索引结构包括一级索引、二级索引和三级索引,所述一级索引包含对应的二级索引地址,所述二级索引包含对应的三级索引地址, 所述三级索引包含对应的备份数据地址;控制服务器保存所述一级索引;至少一个备份介质服务器保存所述二级索引和所述三级索引;在后端存储系统中备份所述备份数据及所述备份数据的三级索引结构。优选的,所述一级索引包含对应的二级索引地址,具体为所述一级索引包含一次备份任务对应的二级索引所在备份介质服务器的地址和所述二级索引在该备份介质服务器中的索引地址。优选的,所述二级索引包含对应的三级索引地址,具体为所述二级索引包含至少一个文件列表,每个文件列表包含一本次备份任务所备份文件的文件HASH和该文件对应的三级索引在所述备份介质服务器中的索引地址。优选的,所述一级索引还包括
本次备份任务的任务ID、源IP、源路径、备份路径、开始时间和结束时间。优选的,所述三级索引还包括备份文件的大小、属性和与所述文件内容相关的关键字。优选的,所述一级索弓丨、二级索引、三级索引和三级索引结构以tar包的方式保存。优选的,上述索引方法还包括在所述控制服务器和/或所述至少一个备份介质服务器故障时,根据所述后端存储系统中对三级索引结构的备份,还原所述控制服务器上的一级索引和/或所述至少一个备份介质服务器上的二级索引和三级索引。优选的,所述至少一个备份介质服务器保存所述二级索引和所述三级索引具体为两个或两个以上的备份介质服务器保存所述二级索引和所述三级索引。优选的,上述索引方法还包括在需要进行数据恢复时,从所述两个或两个以上的备份介质服务器上同步查询需要进行恢复数据的备份数据索引。本发明提供了一种索引方法,为备份数据构建三级索引结构,所述三级索引结构包括一级索引、二级索引和三级索引,所述一级索引包含对应的二级索引地址,所述二级索引包含对应的三级索引地址,所述三级索引包含对应的备份数据地址,控制服务器保存所述一级索引,至少一个备份介质服务器保存所述二级索引和所述三级索引,在后端存储系统中备份所述备份数据及所述备份数据的三级索引结构,实现了对索引的分级存储,在索引丢失时能够根据备份的三级索引结构对丢失的索引进行恢复,解决了数据索引可靠性较差的问题。


图1为本发明实施例的应用环境示意图;图2为本发明的实施例二提供的一种索引方法的流程图;图3为三级索引结构建立的流程图;图4为三级索引结构的示意图。
具体实施方式
索引技术是对备份数据进行管理的关键技术,有效的索引技术能够保证备份数据的可靠性和备份效率。传统的索引技术一般通过在本地建立对备份数据的索引,通过记录数据的相关信息,在数据恢复时通过索引找到需要恢复的数据,从而时间数据保护,但这种索引一般记录在某一台备份介质服务器上,一旦备份介质服务器出现故障,就会造成索引丢失,从而导致备份的数据变成无效数据。另外,在备份任务比较多时,并发访问对索引的访问效率提出了更高的要求。因此,需要提供一种方法,在备份的索引设计过程中,提供一种更可靠的索引技术,实现更为可靠的容错,即使备份介质服务器出现故障,只要备份数据没有丢失就能有效、快速的恢复备份任务,从而恢复数据。
为了解决上述问题,本发明的实施例提供了一种索引方法。下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。首先,结合附图对本发明的实施例一进行说明。本发明实施例提供了一种基于分布式的索引,在备份的索引设计过程中,提供一种更可靠的分布式索引技术,实现更为可靠的容错,即使备份介质服务器出现故障,只要备份数据没有丢失就能有效、快速的恢复备份任务,从而恢复数据。在一个分布式索引架构中包括一级索引、二级索引、三级索引和备份数据四个部分,其中一级索引记录备份任务的信息,二级索引记录每次备份文件的信息,三级索引。其中,一级索引主要记录每次备份任务的执行信息,主要包括任务ID、源IP、目的 IP、源路径、备份路径、二级索引地址、开始时间和结束时间,每执行一次备份任务都会记录一个新的二级索引地址。二级索引主要记录每次备份任务这次备份任务哪些文件备份了的文件索引信息, 每个索引ID,记录了这次任务备份文件的HASH以及此文件的内容索引地址。三级索引主要记录单个文件的内容关键信息,方便应用检索备份文件信息,主要包括内容索引ID、数据地址和内容。其中数据地址记录备份数据最终保存在磁盘的地址,记录的内容可能有多个关键词。备份数据包括两部分一部分为索引信息,一部分为数据,其索引信息保护一级索弓丨、二级索弓丨、三级索引的信息。当系统出现索引信息丢失可以通过备份数据可以有效的恢复一级索引、二级索弓丨、三级索引的信息。本发明实施例提供的索引方法,在保证数据可靠性传输的前提下,可以实现高效的网络传输。从网络数据传输和元数据重建两个方面减少远程复制的网络传输开销,从而大幅减少远程复制过程中网络传输的数据,实现传输的精简高效。下面结合附图,对本发明的实施例二进行说明。本发明实施例的应用环境如图1所示,一般的备份系统分为备份代理、控制服务器、备份介质服务器和后端存储四部分组成。本发明实施例提供了一种分布式的三级索引结构,该三级索引结构包括一级索引、二级索引和三级索引。其中一级索引保存在控制服务器上,二级索引和三级索引保存在备份介质服务器上,最后将备份数据和备份三级索引结构统一保存在后端存储系统中进行备份。使用本发明实施例提供的索引方法对备份数据进行索引的流程如图2所示,包括步骤201、为备份数据构建三级索引结构;整个三级索引结构建立的过程如图3所示,在控制服务器建立一次备份任务时, 通过一级索引保存这次任务的任务ID、源IP、目的IP、源路径、备份路径、二级索引地址、开始时间和结束时间,其中目的IP为备份介质服务器的地址,二级索引地址记录着在在介质服务器中二级索引此次备份任务中文件索引的地址。在二级索引中,每一个索引ID对应一个任务ID,一个索引ID下面有多个文件列表,分别记录着这次备份文件的文件HASH和内容索引地址。内容索引地址主要为三级索引的地址。在三级索引中分别记录最终备份数据的地址和与文件相关的内容信息,此内容信息可能有多个,比如可以记录文件的大小、属性、内容相关的关键字等等,方便应用根据关键字进行检索。三级索引结构具体如图4所示。在备份数据中,为了保证索引的容错,将一级索引、二级索引、三级索引作为文件的信息文件与备份的数据一起采用tar包的方式保存在存储设备上。步骤202、保存三级索引结构;本步骤中,具体的,控制服务器保存所述一级索引,至少一个备份介质服务器保存所述二级索引和所述三级索引,在后端存储系统中备份所述备份数据及所述备份数据的三级索引结构。需要说明的是,一般情况下,一个二级索引对应多个三级索引,同一二级索引和其对应的全部三级索引一般存储在同一备份介质服务器上,以便于检索,提高检索效率。步骤203、在需要恢复数据时,通过所述三级索引结构获取备份数据;本步骤中,首先通过控制服务器的一级索引浏览所有的任务列表。每个任务备份的文件列表由控制服务器向介质服务器读取二级索引信息获取,而此备份文件的详细信息,比如此文件相关的属性信息、关键内容信息则有三级索引即内容索引来读取。并且此索引信息指向最终的备份数据文件,可以选择全部或者部分恢复。从而完成整个数据恢复过程。具体的,在所述控制服务器和/或所述至少一个备份介质服务器故障时,根据所述后端存储系统中对三级索引结构的备份,还原所述控制服务器上的一级索引和/或所述至少一个备份介质服务器上的二级索引和三级索引;本步骤中,当控制服务器或者备份介质服务器出现故障导致一级或二级、三级索引文件的丢失时,只要最终的备份文件没有损坏就可以通过备份数据重建一级、二级、三级索引文件,从而实现索引数据的高度容错。检测故障,主要是在读取索引文件时,如果出现无法从磁盘正常读取索引文件,即可能出现磁盘块损坏,或者控制服务器和备份介质服务器出现故障,即找不到相应的一级和二级索引文件,此时只要备份数据在就可以重建一级、二级和三级索引。一般包括以下两种情况情况一控制服务器故障,此时一级索引丢失。重新安装新的控制服务器,控制服务器通过检索备份介质服务器的信息,找到存储中的一级索引信息,恢复到控制服务器端。情况二 备份介质服务器故障,此时二级和三级索引丢失。重新安装备份介质服务器,备份介质服务器通过重新检索存储系统上的备份数据,直接恢复备份介质服务器上的二级和三级索引。在上述情况一与情况二同时发生时,控制服务器和备份介质服务器上存储的索引文件的恢复是相互独立的,在控制服务器重新启动或用其他控制服务器替代故障的原控制服务器后,新的控制服务器会自动获取一级索引;同理,在备份介质服务器重新启动或用其他备份介质服务器替代故障的原备份介质服务器后,新的备份介质服务器会自动获取二、 三级索引
而在正常的使用过程中,索引文件分布在不同的备份介质服务器上,当系统压力比较大,进行内容检索和数据恢复时可以通过分布式的方式从多个备份介质服务器上查找二级和三级索引的信息,从而实现系统的高效查询。本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现,所述计算机程序可以存储于一计算机可读存储介质中,所述计算机程序在相应的硬件平台上(如系统、设备、装置、器件等)执行,在执行时,包括方法实施例的步骤之一或其组合。可选地,上述实施例的全部或部分步骤也可以使用集成电路来实现,这些步骤可以被分别制作成一个个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现, 它们可以集中在单个的计算装置上,也可以分布在多个计算装置所组成的网络上。上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器,磁盘或光盘等。任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求所述的保护范围为准。
权利要求
1.一种索引方法,其特征在于,包括为备份数据构建三级索引结构,所述三级索引结构包括一级索引、二级索引和三级索引,所述一级索引包含对应的二级索引地址,所述二级索引包含对应的三级索引地址,所述三级索引包含对应的备份数据地址;控制服务器保存所述一级索引;至少一个备份介质服务器保存所述二级索引和所述三级索引;在后端存储系统中备份所述备份数据及所述备份数据的三级索引结构。
2.根据权利要求1所述的索引方法,其特征在于,所述一级索引包含对应的二级索引地址,具体为所述一级索引包含一次备份任务对应的二级索引所在备份介质服务器的地址和所述二级索引在该备份介质服务器中的索引地址。
3.根据权利要求2所述的索引方法,其特征在于,所述二级索引包含对应的三级索引地址,具体为所述二级索引包含至少一个文件列表,每个文件列表包含一本次备份任务所备份文件的文件HASH和该文件对应的三级索引在所述备份介质服务器中的索引地址。
4.根据权利要求2所述的索引方法,其特征在于,所述一级索引还包括本次备份任务的任务ID、源IP、源路径、备份路径、开始时间和结束时间。
5.根据权利要求3所述的索引方法,其特征在于,所述三级索引还包括备份文件的大小、属性和与所述文件内容相关的关键字。
6.根据权利要求1所述的索引方法,其结构在于,所述一级索引、二级索引、三级索引和三级索引结构以tar包的方式保存。
7.根据权利要求1所述的索引方法,其特征在于,该方法还包括在所述控制服务器和/或所述至少一个备份介质服务器故障时,根据所述后端存储系统中对三级索引结构的备份,还原所述控制服务器上的一级索引和/或所述至少一个备份介质服务器上的二级索引和三级索引。
8.根据权利要求1所述的索引方法,其特征在于,所述至少一个备份介质服务器保存所述二级索引和所述三级索引具体为两个或两个以上的备份介质服务器保存所述二级索引和所述三级索引。
9.根据权利要求8所述的索引方法,其特征在于,该方法还包括在需要进行数据恢复时,从所述两个或两个以上的备份介质服务器上同步查询需要进行恢复数据的备份数据索引。
全文摘要
本发明提供了一种索引方法。涉及计算机应用技术领域;解决了数据索引可靠性较差的问题。该方法包括为备份数据构建三级索引结构,所述三级索引结构包括一级索引、二级索引和三级索引,所述一级索引包含对应的二级索引地址,所述二级索引包含对应的三级索引地址,所述三级索引包含对应的备份数据地址;控制服务器保存所述一级索引;至少一个备份介质服务器保存所述二级索引和所述三级索引;在后端存储系统中备份所述备份数据及所述备份数据的三级索引结构。本发明提供的技术方案适用于数据存储系统,实现了高可靠性的数据索引。
文档编号G06F11/14GK102314503SQ201110257530
公开日2012年1月11日 申请日期2011年9月1日 优先权日2011年9月1日
发明者刘正伟, 王旭 申请人:浪潮(北京)电子信息产业有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1