数据存储方法及系统的制作方法

文档序号:6469128阅读:117来源:国知局
专利名称:数据存储方法及系统的制作方法
技术领域
本发明涉及计算机技术,更具体地,涉及数据存储策略的实现。
背景技术
众所周知,文件之间关系独立的特性使得文件的分级存储能通过分层存
储管理(Hierarchical Storage Management, HSM)技术实现。所述分层存储管 理技术通过操作系统判断所述文件是否活跃,并结合所述文件的重要程度, 形成归档、备份的分级存储策略。
然而,对于数据仓库而言,其信息存储方式不同于普通文件,所述数据 仓库中的数据关联性强,并且所述操作系统无法判断所述数据是否活跃,因 此现有的分层存储管理技术不能实现数据仓库的分级存储。目前,数据仓库 的信息存储依赖人工识别数据的重要程度从而形成归档、备份的分级存储策 略。
' 但是,由于所述数据仓库的数据量庞大,关系复杂,所述数据仓库分级 存储策略只为应对突难性恢复,无法满足快速进行历史数据检索及分析。另 外,由于所述数据仓库分级存储策略不能判断所述数据是否活跃,因此分级 存储的数据包括活跃数据和不活跃数据,这导致实现所述数据的访问会浪费 大量的处理资源,严重影响数据仓库系统的日常运行。再者,所述不活跃数 据的存在使得实现所述数据的备份浪费大量的空间和时间,并且增大了所述 数据备份的开销。此外,由于所述数据仓库的数据的重要程度依赖于人工识 别,因此所述数据仓库分级存储策略受人为因素的影响,出现错误的可能性 大,同时在数据变更的情况下不能及时进行调整。

发明内容
本发明的目的是提供一种数据存储方法及系统,用于解决现有数据仓库 分级存储策略无法判断数据是否活跃以及受人为因素影响的问题。为了实现上述目的,本发明提供了一种数据存储方法,包括如下步骤提 供数据的元数据信息;根据所述元数据信息形成对所述数据的归档任务和/或 备份任务并触发所述归档任务和/或备份任务;执行对所述数据的所述归档任 务和/或备^f分任务。
其中,所述元数据信息包括所述数据的访问频度。
在本发明的 一 个实施例中,所述根据所述元数据信息形成对所述数据的 归档任务的步骤具体为根据所述数据的访问频度以及特定归档条件形成对 所述数据的归档任务。
其中,所述特定归档条件为设定的所述数据的第一保存时间阈值以及所 述数据在所述第一保存时间阈值内的最短访问周期阔值。
在本发明的另 一个实施例中,所述元数据信息还包括所述数据的保存时间。
较佳地,所述根据所述元数据信息形成对所述数据的备份任务的步骤具 体为根据所述数据的保存时间以及特定增量备份条件形成对所述数据的增 量备份任务。
其中,所述特定增量备份条件为设定的所述数据的第二保存时间阔值。
在本发明的再一个实施例中,所述保存时间为所述数据被执行了所述归 档任务后保存的时间。
在本发明的实施例中,所述数据存储方法还包括步骤根据被执行了所 述增量备份任务的数据以及特定历史备份条件形成对所述被执行了所述增量 备份任务的数据的历史备份任务。
其中,所述特定历史备份条件为设定的所述被执行了所述增量备份任务 的数据的重要程度。
在本发明的又一个实施例中,所述执行所述归档任务和/或备份任务的步 骤具体为在数据处理平台上执行的所述归档任务和/或备份任务或在数据库 服务器、备份交换机与备份服务器共同建立的平台上执行所述归档任务和/或 备份任务。
相应地,本发明提供了一种数据存储系统,包括第一部件、第二部件以 及第三部件。所述第一部件用于提供数据的元数据信息;所述第二部件用于 根据所述元数据信息形成对所述数据的归档任务和/或备份任务并触发所述归档任务和/或备份任务;所述第三部件用于执行所述归档任务和/或备份任务。 在本发明的一个实施例中,所述第三部件为数据处理平台。所述数据处 理平台执行所述归档任务和所述备份任务。
在本发明的另一个实施例中,所述第三部件包括数据库服务器、备份交 换机以及备份服务器,所述数据库服务器执行所述归档任务以及为所述第一 部件和所述备份交换机提供数据访问接口 ,所述备份交换机通过所述数据访 问接口传输所述数据,所述备份服务器对所述备份交换机传输的数据执行所
述备份任务。
较佳地,所述数据在所述第三部件对所述数据执行所述归档任务后存储 于所述第一部件。
其中,所述数据存储系统还包括第四部件,所述第四部件用于存储所述 第三部件对所述数据执行所述备份任务后的数据。
与现有技术相比,本发明数据存储方法充分利用元数据能记录数据整个 流转过程的作用和优势,其根据提供的数据的元数据信息形成对所述数据的 归档任务和/或备份任务,因此能根据元数据信息判断数据的活跃性,从而不 仅能提升在线存储空间使用率和日常运行效率,节省备份空间和时间,减小 备份开销,而且能在不影响数据存储系统的日常运行的前提下实现对归档和/ 或备份数据的访问,另外数据存储的自动化程度高,不受人为因素的影响。
通过以下的描述并结合附图,本发明将变得更加清晰,这些附图用于解 释本发明的实施例。


本发明将以示例的方式加以阐明,并且并不局限于附图中的特征,在附
图中相同的标号表示同一元件。
图1是本发明数据存储方法的一个实施例的示范性流程图。
图2是本发明数据存储方法的另 一个实施例的示范性流程图。
图3是本发明数据存储系统的一个实施例的架构的示范性示意图。
图4是图3所示数据存储系统的第一部件和第四部件的架构的示范性示意图。
图5是本发明数据存储系统的另一个实施例的架构的示范性示意图。
具体实施例方式
本发明将参考下述细节进行描述,并且附图会阐述本发明。下述描述和 附图是本发明的阐述,并且不能被解释为本发明的限制。大量具体细节被加 以描述从而提供本发明的完整理解。然而,在特定情况下,公知的或者传统 的细节没有被加以描述以便不会对本发明在细节上造成不必要的模糊。
图1是本发明数据存储方法的一个实施例的示范性流程图。如图l所示,
所述数据存储方法包括如下步骤
提供数据的元数据信息(步骤S110 );
根据所述元数据信息形成对所述数据的归档任务和/或备份任务,并触发 所述归档任务和/或备份任务(步骤S120 );
执行对所述数据的所述归档任务和/或备^f分任务(步骤S130 )。
本实施例数据存储方法充分利用元数据能记录数据整个流转过程的作用 和优势,根据提供的数据的元数据信息形成对所述数据的归档任务和/或备份 任务,因此能根据元数据信息判断数据的活跃性,从而不仅能提升在线存储 空间使用率和日常运行效率,节省备份空间和时间,减小备份开销,而且能 在不影响数据存储系统的日常运行的前提下实现对归档和/或备份数据的访 问,另外数据存储的自动化程度高,不受人为因素的影响。
需要指出的是,所述步骤S130可以在数据库服务器平台上实现,也可以 在数据库服务器、备份交换机与备份服务器共同建立的平台上实现。
图2是本发明数据存储方法的另一个实施例的示范性流程图。参考图2, 下面将详细阐述本实施例的数据存储方法。
步骤S210,提供数据的元数据信息,其中所述元数据信息包括所述数据 的访问频度。
步骤S220,根据所述数据的访问频度以及特定归档条件形成对所述数据 的归档任务并触发所述归档任务。
在所述步骤S220中,所述特定归档条件为设定的所述数据的第一保存时 间阈值以及所述数据在所述第一保存时间阈值内的最短访问周期阈值。例如, 假定所述第一保存时间阈值为3个月,所述最短访问周期阈值为1个月,则 判断所述数据的访问频度是否为保存了 3个月且最近1个月无用户访问,若是,则符合所述特定归档条件,形成对所述数据的归档任务并触发所述归档 任务。
步骤S230,执行对所述数据的归档任务。
其中,所述元数据信息还包括所述数据的保存时间。在本实施例中,所 述保存时间为所述数据被执行了所述归档任务后成为归档数据的保存时间。
步骤S240,根据所述归档数据的保存时间以及特定增量备份条件形成对 所述归档数据的增量备份任务并触发所述增量备份任务。
在所述步骤S240中,所述特定增量备份条件为设定的所述归档数据的第 二保存时间阈值。这里,假定所述第二保存时间阔值为13个月,则判断所述 归档数据的保存时间是否为保存了 13个月,若是,则符合所述特定增量备份 条件,从而形成对所述归档数据的增量备份任务并触发所述增量备份任务。
步骤S250,执行对所述归档数据的所述增量备份任务。
必须指出的是,本发明实施例的所述元数据信息可以为未归档的所述数 据的保存时间。这时,本实施例通过判断所述数据的保存时间是否达到特定 增量备份条件,若是,则形成对所述数据的增量备份任务并触发所述增量备 份任务,从而实现执行对所述数据的增量备份任务。
步骤S260,根据被执行了所述增量备份任务的数据以及特定历史备份条 件形成对所述被执行了所述增量备份任务的数据的历史备份任务并触发所述 历史备份任务。
在步骤S260中,所述特定历史备份条件为设定的所述被执行了所述增量 备份任务的数据的重要程度。本实施例通过判断所述被执行了所述增量备份 任务的数据是否符合所述特定历史备份条件,从而可以对所述被执行了所述 增量备份任务的数据进行分类、分时间段保存,从而形成便于历史统计分析 的数据,同时恢复所述被执行了所述增量备份任务的数据也较容易。
步骤S270,执行对所述被执行了所述增量备份任务的数据的所述历史备 份任务。
在步骤S270中,被执行了所述历史备份任务的数据会被永久保存。 必须指出的是,所述元数据信息还包括所述数据的变更记录。因此,本
实施例在数据变更的情况下能根据元数据信息中的变更记录及时调整所述数
据的存储方式。步骤S280,定期对所述数据执行灾难备份任务。
图3是本发明数据存储系统的一个实施例的架构的示范性示意图。如图3 所示,所述^t据存储系统包括第一部件310、第二部件320以及第三部件330。 所述第一部件310用于提供数据的元数据信息。
所述第二部件320用于根据所述元数据信息形成对所述数据的归档任务 和/或备份任务并触发所述归档任务和/或备份任务。所述第二部件320可以为 采用普通服务器,软件采用数据抽取、转换和加载(ExtractionTransformation Loading, ETL )工具DataStage和调度工具BMC Control-M。数据抽取、转换 和加载工具用于分析所述元数据信息从而形成所述归档任务和/或备份任务, 调度工具用于根据所述元数据信息为所述归档任务和/或备份任务配置触发条 件。上述两种工具提供了良好的图形界面和应用程序接口 (Application Programming Interface, API)调用,可以适应各种复杂的任务。
所述第三部件330用于执行所述归档任务和/或备份任务。
所述数据存储系统还包括第四部件340,所述第四部件340用于备份所述 第三部件330对所述数据执行所述备份任务后的数据。
在本实施例中,所述第二部件320和第三部件330通过局域网(Local Area Network, LAN)互联。
在本实施例中,所述第三部件330为数据处理平台,所述数据处理平台 不仅承担对所述数据的归档任务,而且承担对所述数据的备份任务。这里,
(Host-Based)备4分方式。
在实现方式上,所述数据处理平台可以采用多台对称多处理(Symmetric Multiprocessing, SMP)设备,并由所述多台多对称处理设备通过专用网络组 成大规模并行处理(Massively Parallel Processing, MPP)系统。其中每台对 称多处理设备带有单独的存储,所述每台对称多处理设备还与部分其它对称 多处理设备的存储相连,这样当其中一台对称多处理设备出现故障时,可以 由其它对称多处理设备接管由所述一台对称多处理运行的任务。
在本实施例中,所述数据在所述第三部件330对所述数据执行所述归档 任务后存储于所述第一部件310。需要指出的是,所述归档任务的执行可以通 过结构4匕查询i吾言(Structure Query Language , SQL ) i吾句完成。其中,所述元数据信息包括所述数据的访问频度,所述第二部件320根据 所述数据的访问频度和特定归档条件形成对所述数据的归档任务。
参考图4,作为详细的说明,所述第一部件310可以划分为用于提供用户 访问以及存储数据并提供所述数据的访问频度的运行库311、根据所述数据的 访问频度形成元数据信息并保存所述元数据信息的元数据库312、以及用于保 存根据所述元数据信息对所述数据执行归档任务后归档的数据并配合所述运 行库311完成被执行所述归档任务的数据的访问的归档库313。更为详细地, 所述特定归档条件为设定的所述数据的第 一保存时间阈值以及所述数据在所 述第一保存时间阈值内的最短访问周期阈值。例如,布i定所述第一保存时间 阈值为3个月,所述最短访问周期为1个月,则所述第二部件320判断所述 数据的访问频度是否为保存了 3个月但最近1个月无用户访问,若是,则符 合所述特定归档条件,所述第二部件320形成对所述数据的归档任务并触发 所述归档任务,所述数据库服务器执行对所述数据的归档任务,将存储在所 述运行库311中的数据归档到所述归档库313。
其中,所述元数据信息还包括所述数据的保存时间。在本实施例中,所 述保存时间为所述数据被执行了所述归档任务后成为归档数据的保存的时 间。所述第二部件320根据所述归档数据的保存时间以及特定增量备份条件形 成对所述归档数据的增量备份任务并触发所述增量备份任务。
所述第三部件330执行对所述归档数据的所述增量备份任务。这样由于 所述增量备份任务是对所述归档数据的增量的完整备份,因此恢复时可准确 定位,恢复代价最小。
必须指出的是,本实施例的所述元数据信息可以为未归档的所述数据的 保存时间。这时,本实施例的所述第二部件320判断所述数据的保存时间是 否达到所述特定增量备份条件,若是,则形成对所述数据的所述增量备份任 务并触发所述增量备份任务,从而实现执行对所述数据的增量备份任务。
所述第二部件320根据被执行了所述增量备份任务的数据以及特定历史 备份条件形成对所述被执行了所述增量备份任务的数据的历史备份任务并触 发所述历史备份任务。其中,所述特定历史备份条件为设定的所述被执行了 所述增量备份任务的数据的重要程度。所述第三部件330执行对所述被执行 了所述增量备份任务的数据的所述历史备份任务。本实施例通过所述第二部件320判断所述被执行了所述增量备份任务的数据是否符合所述特定历史备
份条件,从而可以对所述被执行了所述增量备份任务的数据进行分类、分时 间段保存,从而形成便于历史统计分析的数据,同时恢复所述被执行了所述 增量备份任务的数据也较容易。
参考图4,所述第四部件340可以划分为用于备份所述第二部件320对所 述归档库313的归档数据执行增量备份任务后的数据的归档带组341、用于备 份所述第二部件对归档带组341的数据执行了所述历史备份任务后的数据的 历史数据带组342、以及用于定期备份所述运行库311的数据的灾备带组343。 所述归档带组341是对所述归档库313的数据增量的完整备份,因此恢复时 可准确定位,恢复代价最小。所述历史数据带组342的数据恢复时需要定位 到所述第一部件310的归档库313的某个数据时间段,保证恢复代价较小。 所述灾备带组343主要用于遭难性恢复的需要。
图5是本发明数据存储系统的另一个实施例的架构的示范性示意图。所 述数据存储系统包括第一部件310、第二部件320、第三部件350和第四部件 340。所述第一部件310、第二部件320、和第四部件340与上述实施例相同。 所述第三部件350包括数据库服务器330、备份交换机352以及备份服务器 353,所述数据库服务器330对所述数据执行所述归档任务以及为所述第一部 件310和所述备份交换机352提供数据访问接口 ,所述备份交换机352通过 所述数据访问接口传输所述数据,所述备份服务器353对所述备份交换机352 传输的数据执行所述备份任务。这里,可以把通过所述数据库服务器330、备 份交换机352以及备份服务器353执行所述备份任务的方式定义为基于局域 网的(LAN-BASE)备份方式。
在本实施例中,所述数据库服务器330、备份服务器353采用以太网连接, 可以实现异地的同步突备和多系统磁带库共享。
在所述数据存储系统的数据传输过程中,所述第一部件310与所述数据 库服务器330的传输采用光纤通道(FC, Fiber Channel),所述备份交换机352 分别与所述数据库服务器330以及所述备份服务器353的传输采用千兆以太 网(ETH, EtherChannel),所述备份服务器353与所述第四部件340的传输 采用光纤通道。
所述备份服务器353的备份控制软件可以使用Netvault实现,通过插件与各种第一部件310连接,能最大限度发挥所述第一部件310自身特性;同 时,所述备份服务器353利用其对所述第四部件340进行分组和对所述备份 任务优先级的控制功能,保证了大数据量的并行备份及重要任务的实时运行。
本发明实施例的数据存储方法和系统是利用元数据在数据管理方面的作 用和优势从而形成的基于数据信息内容的数据存储方案,相对于目前基于文 件的分级存储方案,其数据定位更准确,自动化程度更高,是目前分层存储 管理技术有益的补充。
本发明实施例的部件的功能均采用成熟的第三方软硬件实现,具有良好 的扩展性和复用性。在应用时可以根据各自特点对所述功能进行裁剪或增加, 建立一套最适合于企业特点的数据存储系统。
在前述的具体说明中,本发明参考其中的具体实施例得以描述。明显地, 在不脱离权利要求所提出的本发明的较宽的精神和范围的前提下,多种改变 可以做出。因此,所述具体说明和附图被认为是解释性的含义,而非限制性 的含义。
权利要求
1. 一种数据存储方法,包括如下步骤提供数据的元数据信息;根据所述元数据信息形成对所述数据的归档任务和/或备份任务并触发所述归档任务和/或备份任务;执行对所述数据的所述归档任务和/或备份任务。
2. 如权利要求1所述的数据存储方法,其特征在于,所述元数据信息包 括所述数据的访问频度。
3. 如权利要求2所述的数据存储方法,其特征在于,所述根据所述元数 据信息形成对所述数据的归档任务的步骤具体为根据所述数据的访问频度以及特定归档条件形成对所述数据的归档任务。
4. 如权利要求3所述的数据存储方法,其特征在于,所述特定归档条件 为设定的所述数据的第一保存时间阈值以及所述数据在所述第一保存时间阚 值内的最短访问周期阈值。
5. 如权利要求1所述的数据存储方法,其特征在于,所述元数据信息包 括所述数据的保存时间。
6. 如权利要求4所述的数据存储方法,其特征在于,所述根据所述元数 据信息形成对所述数据的备份任务的步骤具体为根据所述数据的保存时间以及特定增量备份条件形成对所述数据的增量 备份任务。
7. 如权利要求6所述的数据存储方法,其特征在于,所述特定增量备份 条件为设定的所述数据的第二保存时间阈值。
8. 如权利要求5-7任一项所述的数据存储方法,其特征在于,所述保 存时间为所述数据被执行了所述归档任务后保存的时间。
9. 如权利要求6所述的数据存储方法,其特征在于,还包括步骤 根据被执行了所述增量备份任务的数据以及特定历史备份条件形成对所述被执行了所述增量备份任务的数据的历史备份任务。
10. 如权利要求9所述的数据存储方法,其特征在于,所述特定历史备 份条件为设定的所述被执行了所述增量备份任务的数据的重要程度。
11. 如权利要求1所述的数据存储方法,其特征在于,所述执行所述归 档任务和/或备份任务的步骤具体为在数据处理平台上执行的所述归档任务和/或备份任务;或 在数据库服务器、备份交换机与备份服务器共同建立的平台上执行所述 归档任务和/或备份任务。
12. —种数据存储系统,其特征在于,包括 第一部件,用于提供数据的元数据信息;第二部件,用于根据所述元数据信息形成对所述数据的归档任务和/或备份任务并触发所述归档任务和/或备份任务;第三部件,用于执行所述归档任务和/或备份任务。
13. 如权利要求12所述的数据存储系统,其特征在于,所述第三部件为 数据处理平台。
14. 如权利要求12所述的数据存储系统,其特征在于,所述第三部件包 括数据库服务器、备份交换机以及备份服务器,所述数据库服务器执行所述 归档任务以及为所述第一部件和所述备份交换机提供数据访问接口 ,所述备 份交换机通过所述数据访问接口传输所述数据,所述备份服务器对所述备份交换机传输的数据执行所述备份任务。
15. 如权利要求12所述的数据存储系统,其特征在于,所述数据在所述第三部件对所述数据执行所述归档任务后存储于所述第一部件。
16. 如权利要求12所述的数据存储系统,其特征在于,还包括 第四部件,用于存储所述第三部件对所述数据执行所述备份任务后的数据
全文摘要
本发明公开了一种数据存储方法,包括如下步骤提供数据的元数据信息;根据所述元数据信息形成对所述数据的归档任务和/或备份任务并触发对所述数据的所述归档任务和/或备份任务;执行对所述数据的所述归档任务和/或备份任务。本发明数据存储方法充分利用元数据能记录数据整个流转过程的作用和优势,其根据提供的数据的元数据信息形成对所述数据的归档任务和/或备份任务,从而不仅能提升在线存储空间使用率和日常运行效率,节省备份空间和时间,减小备份开销,而且能在不影响数据存储系统的日常运行的前提下实现对归档和/或备份数据的访问,另外数据存储的自动化程度高,不受人为因素的影响。本发明同时公开了一种数据存储系统。
文档编号G06F17/30GK101446966SQ20081019292
公开日2009年6月3日 申请日期2008年12月31日 优先权日2008年12月31日
发明者浩 刘, 鹏 李, 李镜忠, 王成名, 涛 胡, 董恒星, 赵世辉, 杨 邓, 郑承满, 陈少静 申请人:中国建设银行股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1