基于集中式存储连续数据保护方法

文档序号:6597241阅读:193来源:国知局
专利名称:基于集中式存储连续数据保护方法
技术领域
本发明涉及一种基于文件的连续数据保护系统,此系统可以实时捕获单个文件的
变化,提供任意时间点的文件恢复。在数据的传输上使用的差量算法对文件进行差异传输, 存储上使用镜像与差量结合的方式记录文件的变化。该方法有效的利用网络带宽,节约了 存储资源。
背景技术
对一个企业来说,数据的安全极为重要。 一旦重要的数据被破坏或丢失,就会对 企业的日常生成造成重大影响,甚至是难以弥补的损失。企业在进行数据保护时大多采用 传统的数据备份技术,如备份、RAID、远程镜像、快照等。这几种方法具有各自的用途,大 企业的数据保护一般需要整合这几种方法。然而,传统的数据保护解决方案专注于数据的 周期性备份上,因此一直伴随有备份窗口以及对生产系统的影响等问题,很难保证灵活的 目标恢复点(Recovery pointobjectives, RP0)及更快的目标恢复时间(Recovery time objectives, RT0),而RP0和RT0已经成了衡量容灾体系应急能力和数据保护能力的关键性 指标。 为了满足用户对数据进行连续保护,以便在灾难发生后能以最快的速度恢复到距 故障点最近时刻的需求,连续数据保护(continuous data protection, CDP)技术应运而 生。连续数据保护是一种连续捕获和保存数据变化,并将变化后的数据独立与初始数据进 行保存的技术,该技术可以实现过去任意一个时间点的数据恢复。 根据实现的层次的不同,连续数据保护技术可以分为如下几类基于应用的、基于 文件的和基于数据块大的连续数据保护三类。其中基于文件的连续数据保护功能作用在文 件系统上,它可以捕捉文件系统数据或者元数据的变化事件(例如创建、修改、删除等),并 及时记录文件的变化信息,以便来实现任意时间点的文件恢复。相对基于数据块的连续数 据保护系统,文件级实现简单,与特定的文件系统紧耦合。 因此如何提供一种方法,在数据传输上使用差量算法对文件进行差异传输,存储 上使用快速有效的记录方式来记录文件的变化,并有效的利用网络带宽节约存储资源是目 前数据急剧增加面临的挑战。

发明内容
本发明提供一种基于文件的连续数据保护系统,此系统可以实时捕获单个文件的 变化,提供任意时间点的文件恢复。 步骤如下在数据传输上使用差量算法对文件进行差异传输,存储上使用镜像与 差量结合的方式记录文件的变化,该系统运行在Li皿X操作系统之上,用户保护的数据及 元数据信息直接保存于服务器的文件系统上,系统为每个用户建立元数据目录、存储保护 实例列表和用户信息内容,并包含一个指向实际数据存储空间的软连接,时间数据存储空 间为 同用户组分配一个单独的目录、逻辑巻或分区,其下为每个用户建立相应的目录,用户目录下每个保护实例建立一个目录,保存该保护实例的所有版本差量数据,其中
1)监控保护实例的变化,维护任务队列和数据差量同步;
2)保护实例的变化在Windows系统中通过FileSystemWatcher类实现;
3)系统通过监控保护实例的OnChanged和OnClosed事件; 4)在保护实例发生变化并关闭后,监控模块向任务队列中插入一个新版本任务;
5)在产生新版本时,系统首先将客户端的最新版本同步至服务器,再由服务器比 较两个版本的差异计算出文件差量,Rsync算法是一种有效地比较两个类似文件之间差异 的算法,它通过对两个主机上的文件进行一次扫描,准确找到它们之间的差异部分;
6)每次保存最新版本的完整副本,而对较旧版本的数据采用差量方式保存,每次 产生新版本时均只需进行一次数据比较即能计算差量,在差量算法上,采用rdiff算法计 算出保护实例的不同版本的差量数据,恢复历史版本时,首先要根据各个版本差量计算出 所指定的镜像,再将该镜像同步到客户端。 7)服务器针对每个保护实例在服务器上需分配三块存储空间,即历史版本数据
区、新版本缓冲区、恢复版本缓冲区,新版本缓冲区保存一份指向当前最新版本镜像文件的
硬连接,新版本区和历史版本缓存区在物理上是同一空间,不需要额外的存储空间。 本发明的优异效果是此系统可以实时捕获单个文件的变化,提供任意时间点的
文件恢复。 (1)不增加客户端的存储空间,对本地保护实例不会在磁盘上的另外一个物理位 置保存一份历史数据备份。(2)尽量减少本地计算资源。在传送差量时,由于本地监控模块 能监控到具体的变化文件,在传输差量时只传输变化文件的差量部分。(3)引入了队列管 理,能处理多任务请求,同时能在没有连接网络的时候,依然可以很好记录变化内容,在网 络恢复时继续执行任务。连续数据保护技术是对传统数据保护技术的一个重大突破,是数 据保护技术的发展趋势。本设计对局域网内的连续数据保护系统方案实现基于文件的连续 数据保护系统。该系统是项目组块级和文件级连续数据保护系统的一个重要组成部分,在 部分企业关键数据保护业务中,取得良好的效益。


附图l是系统部署图; 附图2是客户端提交数据存储图; 附图3是提交新版本数据流程。
具体实施例方式
下面参照附图,对本发明的内容以一个具体实例来描述实现这一体系结构的过 程。本系统可以实时捕获单个文件的变化,提供任意时间点的文件恢复。
具体步骤如下 在数据传输上使用差量算法对文件进行差异传输,存储上使用镜像与差量结合的 方式记录文件的变化,该系统运行在Li皿x操作系统之上,用户保护的数据及元数据信息 直接保存于服务器的文件系统上,系统为每个用户建立元数据目录,存储保护实例列表、用 户信息等内容,并包含一个指向实际数据存储空间的软连接。时间数据存储空间可以为不同用户组分配一个单独的目录、逻辑巻或分区,其下为每个用户建立相应的目录,用户目录
下每个保护实例建立一个目录,保存该保护实例的所有版本差量数据。 在本系统中有下面三个特征 (1)不增加客户端的存储空间,对本地保护实例不会在磁盘上的另外一个物理位 置保存一份历史数据备份。 (2)尽量减少本地计算资源。在传送差量时,由于本地监控模块能监控到具体的变 化文件,在传输差量时只传输变化文件的差量部分。 (3)引入了队列管理,能处理多任务请求,同时能在没有连接网络的时候,依然可 以很好记录变化内容,在网络恢复时继续执行任务。 客户端设计的关键是监控保护实例的变化,维护任务队列和数据差量同步。保护 实例的变化在Windows系统中通过FileSystemWatcher类实现,本系统通过监控保护实例 的OnChanged和0nClosed事件。在保护实例发生变化并关闭后,监控模块想任务队列中插 入一个新版本任务。 在产生新版本时,系统首先将客户端的最新版本同步至服务器,再由服务器比较 两个版本的差异计算出文件差量。Rsync算法是一种有效地比较两个类似文件之间差异的 算法,它通过对两个主机上的文件进行一次扫描,即可准确找到它们之间的差异部分。
每次保存最新版本的完整副本,而对较旧版本的数据采用差量方式保存。这样设 计可以在每次产生新版本时均只需进行一次数据比较即可计算差量。在差量算法上,采用 rdiff算法计算出保护实例的不同版本的差量数据。恢复历史版本时,首先要根据各个版本 差量计算出所指定的镜像,再将该镜像同步到客户端。 服务器针对每个保护实例在服务器上需分配三块存储空间,即历史版本数据区、 新版本缓冲区、恢复版本缓冲区。新版本缓冲区保存一份指向当前最新版本镜像文件的硬 连接,新版本区和历史版本缓存区在物理上是同一空间,不需要额外的存储空间。
权利要求
基于集中式存储连续数据保护方法,其特征在于,步骤如下在数据传输上使用差量算法对文件进行差异传输,存储上使用镜像与差量结合的方式记录文件的变化,该系统运行在Linux操作系统之上,用户保护的数据及元数据信息直接保存于服务器的文件系统上,系统为每个用户建立元数据目录、存储保护实例列表和用户信息内容,并包含一个指向实际数据存储空间的软连接,时间数据存储空间为不同用户组分配一个单独的目录、逻辑卷或分区,其下为每个用户建立相应的目录,用户目录下每个保护实例建立一个目录,保存该保护实例的所有版本差量数据,其中1)监控保护实例的变化,维护任务队列和数据差量同步;2)保护实例的变化在Windows系统中通过FileSystemWatcher类实现;3)系统通过监控保护实例的OnChanged和OnClosed事件;4)在保护实例发生变化并关闭后,监控模块向任务队列中插入一个新版本任务;5)在产生新版本时,系统首先将客户端的最新版本同步至服务器,再由服务器比较两个版本的差异计算出文件差量,Rsync算法是一种有效地比较两个类似文件之间差异的算法,它通过对两个主机上的文件进行一次扫描,准确找到它们之间的差异部分;6)每次保存最新版本的完整副本,而对较旧版本的数据采用差量方式保存,每次产生新版本时均只需进行一次数据比较即能计算差量,在差量算法上,采用rdiff算法计算出保护实例的不同版本的差量数据,恢复历史版本时,首先要根据各个版本差量计算出所指定的镜像,再将该镜像同步到客户端。7)服务器针对每个保护实例在服务器上需分配三块存储空间,即历史版本数据区、新版本缓冲区、恢复版本缓冲区,新版本缓冲区保存一份指向当前最新版本镜像文件的硬连接,新版本区和历史版本缓存区在物理上是同一空间,不需要额外的存储空间。
全文摘要
本发明提供一种基于集中式存储连续数据保护方法,是在数据传输上使用差量算法对文件进行差异传输,存储上使用镜像与差量结合的方式记录文件的变化,该系统运行在Linux操作系统之上,用户保护的数据及元数据信息直接保存于服务器的文件系统上,系统为每个用户建立元数据目录、存储保护实例列表和用户信息内容,并包含一个指向实际数据存储空间的软连接,时间数据存储空间为不同用户组分配一个单独的目录、逻辑卷或分区,其下为每个用户建立相应的目录,用户目录下每个保护实例建立一个目录,保存该保护实例的所有版本差量数据,本发明是项目组块级和文件级连续数据保护系统的一个重要组成部分,在部分企业关键数据保护业务中,取得良好的效益。
文档编号G06F17/30GK101751474SQ201010011489
公开日2010年6月23日 申请日期2010年1月19日 优先权日2010年1月19日
发明者刘正伟 申请人:山东高效能服务器和存储研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1