基于扇区数据的备份方法与流程

文档序号:26405785发布日期:2021-08-24 16:20阅读:292来源:国知局
基于扇区数据的备份方法与流程

本发明涉及数据备份领域,尤其涉及一种基于扇区数据的备份方法。



背景技术:

随着计算机的普及和信息技术的进步,特别是计算机网络的飞速发展,信息安全的重要性日益明显,只要发生数据传输、数据存储、数据交换,就会存在数据安全性的问题,而数据备份则是在数据的安全性受到损失时的一种数据恢复手段。当任意主机内的数据需要备份时,若该主机使用的是linux系统,那么rsync作为linux系统下的数据镜像备份工具,可以对主机的数据进行备份。rsync是remotesync的缩写,该工具不仅可以远程同步,支持本地复制,而且可以与其他ssh、rsync主机同步,具有保留符号连接、硬链接、文件所有权、权限、设备、时间,快速更新备份文件等特点。

但是,使用rsync进行数据同步备份时,需要扫描所有文件后才能进行比对,确定产生的文件差异,对产生差异的文件进行差量传输,如果文件数量达到了百万甚至千万量级,会占用大量计算资源,甚至影响到其他进程的正常使用。



技术实现要素:

为此,本发明提供一种基于扇区数据的备份方法,解决了文件备份中占用大量计算资源的问题,提高了文件备份的效率。

为实现上述目的,本发明提供一种基于扇区数据的备份方法,包括:

获取n个备份时间间隔ti,根据所述备份时间间隔获取平均时间间隔ta,计算每个备份时间间隔的偏离度,所述偏离度为|ti-ta|/ta,i=1,2,…,n,预先设置标准偏离度,比较每个备份时间间隔的偏离度与标准偏离度的大小关系,得到n个比较结果,若在n个比较结果中,备份时间间隔的偏离度小于标准偏离度的比较结果的数量>n/2,则将所述平均时间间隔ta作为备份周期。

确定优先检测数sf,所述优先检测数的确定方法为:

设置待统计周期,所述待统计周期包括m个备份周期,获取待备份文件的总量sj,j=1,2,…,m,将在备份周期内备份过的文件前置,获取待统计周期内所述待备份文件的总量的均值sb,所述优先检测数为sf=sb×(1+k),其中k为标准系数。

在所述待统计周期后的下一个备份周期进行备份时,根据优先检测数sf的数量及待备份文件的排列顺序确定待检测的待备份文件。

进一步地,待检测的待备份文件的顺序为第sf+1个文件,在对待检测的待备份文件进行检测时,若需要备份,则继续检测第sf+2个文件是否需要备份,若第sf+2个文件仍需要备份,则继续检测第sf+3个文件是否需要备份,循环此过程,直至检测的文件不需要备份,则本备份周期结束;

若不需要备份,则本备份周期结束。

进一步地,得到n个比较结果后,若在n个比较结果中,备份时间间隔的偏离度小于标准偏离度的比较结果的数量≤n/2,则重新统计n个备份时间间隔;若在n个比较结果中,备份时间间隔的偏离度仍小于标准偏离度的比较结果的数量≤n/2,则再次重新获取n个备份时间间隔;重复此过程,直至满足在n个比较结果中,备份时间间隔的偏离度小于标准偏离度的比较结果的数量>n/2,则本备份周期结束。

进一步地,所述备份时间间隔的数量n的取值范围为5-9,并且n为奇数。

进一步地,所述标准偏离度的取值范围为20%-40%。

进一步地,所述标准系数k的取值范围为0.2-0.4。

进一步地,服务器通过iscsi挂载一块备份磁盘到待备份主机,所述备份磁盘用以对文件进行备份,所述待备份主机用以存放备份的文件,首次对源目录进行全量备份,所述源目录用以表示初始状态下所有文件的存放地址,所述全量备份表示对所有待备份内容进行第一次备份。

进一步地,所述全量备份后还将启动一个监控程序,所述监控程序用以备份时读取日志中的所有文件操作,所述日志用以记载每次修改中文件操作的内容,所述文件操作包括文件内容的增加、修改、删除和文件本身的新增、删除。

进一步地,除第一次采用所述全量备份外,之后均采取增量备份,即备份时通过读取所述监控程序记录的日志,仅对有修改记录的文件进行对比,进而得出新旧文件之间的增量,并对所述增量进行备份;

在待备份主机接收到结束备份的指令后,还将启动卸载程序,所述卸载程序包括将所述备份磁盘从所述待备份主机中卸载。

与现有技术相比,本发明的有益效果在于,通过历史备份时间间隔确定备份周期,并统计多个备份周期内的备份文件的数量确定优先检测数,使得未修改的文件无需检测,进而节约了备份过程占有的计算资源,提高了备份的效率。

尤其,通过收集有效的备份时间间隔数据,使得收集的数据误差较小,求得的平均备份时间取值合理,备份方法更加科学有效,进而节约了备份过程占有的计算资源,提高了备份的效率。

尤其,通过设置优先检测数,不仅尽可能多地检测需要备份的文件,而且尽可能少地不检测不需要备份的文件,进而节约了备份过程占有的计算资源,提高了备份的效率。

尤其,通过设置n的取值范围在合理区间内,不仅保证了数据的统计误差较小,而且节约了生成备份方法的时间,提高了备份方法的效率,进而节约了备份过程占有的计算资源,提高了备份的效率。

尤其,通过设置标准偏离度的取值范围在合理区间内,不仅保证了数据的统计误差较小,而且节约了生成备份方法的时间,提高了备份方法的效率,进而节约了备份过程占有的计算资源,提高了备份的效率。

尤其,通过设置标准系数k的取值范围在合理区间内,使得优先检测数sf在合理范围内,不仅尽可能多地检测了需要备份的文件,而且尽可能少地不检测不需要备份的文件,进而节约了备份过程占有的计算资源,提高了备份过程的效率。

尤其,通过提供iscsi搭载共享磁盘,监控程序以及记录日志,对文件的备份建立了通道,实现了对文件的快速备份,大大节省了备份所需的时间,进而节约了备份所需要的计算资源。

附图说明

图1为本实施例提供的基于扇区数据备份的一种方法流程图;

图2为本实施例提供的基于扇区数据备份的另一种方法流程图。

具体实施方式

为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。

请参阅图1所示,图1为基于扇区数据备份的一种方法流程图,其中,本发明实施例提供的基于扇区数据备份方法包括:

获取n个备份时间间隔ti以及获取平均时间间隔ta;

计算每个ti的偏离度,预先设置标准偏离度,比较每个备份时间间隔的偏离度与标准偏离度的大小关系并统计备份时间间隔的偏离度<标准偏离度的数量;

若该数量不足n/2则重新获取n个备份时间间隔,若该数量超过n/2则ta作为备份周期;

设置待统计周期,在待统计周期内,将备份次数多的备份文件前置,获取前置文件总量,并把该文件总量设置为优先检测数sf;

在后一备份周期进行备份时,将备份日志列表中的前sf个文件根据日志内容进行备份后,检测第sf+1个文件是否需要备份,若第sf+1个文件不需要备份则备份结束;

若需要则继续检测下一个文件是否需要备份,并重复此流程直至该文件不需要备份。

具体而言,获取备份周期,所述备份周期为平均时间间隔ta,所述平均时间间隔ta的获取方法为:

获取n个备份时间间隔ti,根据所述备份时间间隔获取平均时间间隔ta;

计算每个备份时间间隔的偏离度,所述偏离度为|ti-ta|/ta,i=1,2,…,n;

预先设置标准偏离度,比较每个备份时间间隔的偏离度与标准偏离度的大小关系,得到n个比较结果;

若在n个比较结果中,备份时间间隔的偏离度小于标准偏离度的比较结果的数量>n/2,则将所述平均时间间隔ta作为备份周期;

确定优先检测数sf,所述优先检测数的确定方法为:

设置待统计周期,所述待统计周期包括m个备份周期,获取待备份文件的总量sj,j=1,2,…,m,将在备份周期内备份过的文件前置;

获取待统计周期内所述待备份文件的总量的均值sb;

设置优先检测数sf,所述优先检测数为sf=sb×(1+k),其中k为标准系数;

在所述待统计周期后的下一个备份周期进行备份时,根据优先检测数sf的数量及待备份文件的排列顺序确定待检测的待备份文件。

具体而言,本发明实施例通过历史备份时间间隔确定备份周期,并统计多个备份周期内的备份文件的数量确定优先检测数,使得未修改的文件无需检测,进而节约了备份过程占有的计算资源,提高了备份的效率。

具体而言,待检测的待备份文件的顺序为第sf+1个文件,在对待检测的待备份文件进行检测时,若需要备份,则继续检测第sf+2个文件是否需要备份,若不需要备份,则本备份周期结束;若第sf+2个文件需要备份,则继续检测第sf+3个文件是否需要备份,若第sf+2个文件不需要备份,则本备份周期结束,依此类推,若第sf+x个文件需要备份(x=3,4,…,n),则继续检测第sf+x+1个文件是否需要备份;若第sf+x个文件不需要备份,则本备份周期结束。

若不需要备份,则本备份周期结束。

具体而言,本发明实施例通过设置优先检测数,不仅尽可能多地检测需要备份的文件,而且尽可能少地不检测不需要备份的文件,进而节约了备份过程占有的计算资源,提高了备份的效率。

具体而言,得到n个比较结果后,若在n个比较结果中,备份时间间隔的偏离度小于标准偏离度的比较结果的数量≤n/2,则重新统计n个备份时间间隔;若在n个比较结果中,备份时间间隔的偏离度仍小于标准偏离度的比较结果的数量≤n/2,则再次重新获取n个备份时间间隔;重复此过程,直至满足在n个比较结果中,备份时间间隔的偏离度小于标准偏离度的比较结果的数量>n/2,则本备份周期结束。

具体而言,本发明实施例通过收集有效的备份时间间隔数据,使得收集的数据误差较小,求得的平均备份时间取值合理,备份方法更加科学有效,进而节约了备份过程占有的计算资源,提高了备份的效率。

具体而言,所述备份时间间隔的数量n的取值范围为5-9,并且为奇数;原因在于若n设置为偶数,当所述比较结果的数量恰好等于2/n时,该组数据是否有效无法确定;若n的取值过小,则数据样本范围过小,求得的所述时间间隔ta可能存在较大的误差,无法很好代表该组数据;若n的取值过大,则备份方法的应用速度过于缓慢,降低了方法的使用效率;

若设置n为5,则备份方法更强调该方法的应用速度,用适当宽松的数据要求换来备份方法的快速应用;

若设置n为7,则备份方法兼顾误差范围的控制和效率的平衡,既要求数据相对集中,又要求方法的应用速度相对较快;

若设置n为9,则备份方法更强调控制误差的范围,要求所述备份时间间隔相对平均值而言更加集中。

具体而言,本发明实施例通过设置n的取值范围在合理区间内,不仅保证了数据的统计误差较小,而且节约了生成备份方法的时间,提高了备份方法的效率,进而节约了备份过程占有的计算资源,提高了备份的效率。

具体而言,所述标准偏离度的取值范围为20%-40%;原因在于若标准偏离度的取值过低,则满足要求的所述备份时间间隔数量较小,容易导致数据无效,增加统计次数,降低了方法的应用效率;若标准偏离度的取值范围过高,则对所述备份时间间隔的数据要求较小,相对于所述平均时间间隔更加分散,统计学意义较差;

若设置标准偏离度为20%,则备份方法更强调控制误差的范围,要求所述备份时间间隔相对平均值而言更加集中;

若设置标准偏离度为30%,则备份方法兼顾误差的范围控制和效率的平衡,既要求数据相对集中,又要求方法的应用速度相对较快;

若设置标准偏离度为40%,则备份方法更强调该方法的应用速度,用适当宽松的数据要求换来备份方法的快速应用。

具体而言,本发明实施例通过设置标准偏离度的取值范围在合理区间内,不仅保证了数据的统计误差较小,而且节约了生成备份方法的时间,提高了备份方法的效率,进而节约了备份过程占有的计算资源,提高了备份的效率。

具体而言,所述标准系数k的取值范围为0.2-0.4,原因在于若所述标准系数k的取值过小,则所述优先检测数sf的取值过小,第sf+1个文件需要备份的概率过高,基于扇区数据的备份方法的优先检测成功率降低,浪费了较多的计算资源;若所述标准系数k的取值范围过大,则所述优先检测数sf的取值过大,优先检测过程中,检测到无需备份的文件的概率过高,基于扇区数据的备份方法的优先检测成功率降低,浪费了较多的计算资源。

若设置所述标准系数k为0.2,则备份方法认为所述优先检测数sf的误差范围较小,认为备份的频率有较大概率落在标准系数的范围内,通过缩小所述优先检测数sf的范围,尽可能少检测不备份的文件,从而提高备份的效率。

若设置所述标准系数k为0.3,则备份方法认为所述优先检测数sf的误差范围适中,认为备份的频率有中等概率落在标准系数的范围内,通过适中的所述优先检测数sf,既涵盖经常备份的文件,又降低了所述优先检测数sf的范围,从而提高备份的效率。

若设置所述标准系数k为0.4,则备份方法认为所述优先检测数sf的误差范围较大,认为备份的频率有较小概率落在标准系数的范围内,通过扩大所述优先检测数sf的范围,尽可能涵盖经常备份的文件,从而提高备份的效率。

具体而言,本发明实施例通过设置标准系数k的取值范围在合理区间内,使得优先检测数sf在合理范围内,不仅尽可能多地检测了需要备份的文件,而且尽可能少地不检测不需要备份的文件,进而节约了备份过程占有的计算资源,提高了备份过程的效率。

请参阅图2所示,图2为本发明实施例提供的基于扇区数据备份的另一种方法流程图,本发明实施例提供的基于扇区数据备份的方法包括:

初次全量备份,所述服务器将待备份文件拷贝至所述共享磁盘中,通过iscsi将所述共享磁盘挂载到所述待备份主机中;

监控文件修改,所述服务器启动监控程序,若监控到修改则记录至所述日志中,形成备份日志;

获取备份周期,所述备份周期为平均时间间隔ta,所述平均时间间隔ta的获取方法为:获取n个备份时间间隔ti,根据所述备份时间间隔获取平均时间间隔ta,计算每个备份时间间隔的偏离度,所述偏离度为|ti-ta|/ta,i=1,2,…,n,预先设置标准偏离度,比较每个备份时间间隔的偏离度与标准偏离度的大小关系,得到n个比较结果,若在n个比较结果中,备份时间间隔的偏离度小于标准偏离度的比较结果的数量>n/2,则将所述平均时间间隔ta作为备份周期;

确定优先检测数sf,所述优先检测数的确定方法为:设置待统计周期,所述待统计周期包括m个备份周期,获取待备份文件的总量sj,j=1,2,…,m,将在备份周期内备份过的文件前置,获取待统计周期内所述待备份文件的总量的均值sb,所述优先检测数为sf=sb×(1+k),其中k为标准系数;

在所述待统计周期后的下一个备份周期进行备份时,根据优先检测数sf的数量及待备份文件的排列顺序确定待检测的待备份文件;

在对待检测的待备份文件进行检测时,若需要备份,则继续检测第sf+2个文件是否需要备份,若第sf+2个文件仍需要备份,则继续检测第sf+3个文件是否需要备份,循环此过程,直至检测的文件不需要备份,则本备份周期结束;

若不需要备份,则本备份周期结束;

备份周期结束后,所述共享磁盘从所述待备份主机中卸载。

具体而言,根据图2中的基于扇区数据的备份方法所应用的实际场景,进行进一步说明,本发明实施例中的基于扇区数据的备份方法应用场景包括源主机、待备份主机、服务器和共享磁盘,所述服务器用于接收所述源主机和所述待备份主机的请求以及发送所述源主机和所述待备份主机的命令,所述监控程序用于监控所述源主机的文件的修改,既包括所述源主机内储存的文件的内容或名称修改,也包括对所述文件的删除,还包括可能存在的新文件的增加。

所述日志用于储存监控程序记录文件的变化,所述共享磁盘用于通过iscsi挂载到所述待备份主机上,所述源主机用于向所述服务器发送备份的命令,提供待备份的所述文件的修改,所述待备份主机用于接收并执行所述服务器发布的备份命令,接收所述服务器发送的所述共享磁盘;

所述源主机向所述服务器发送文件备份请求,所述服务器接收该请求后,接收所述源主机发送的用于备份的所述文件;

所述服务器在内部创建文件列表,用于储存接收的所述文件,并创建一块所述共享磁盘,将所述文件拷贝至所述共享磁盘中,然后通过iscsi将所述共享磁盘挂载到所述带备份主机;

所述服务器启动所述监控程序,根据所述文件列表,发送监控对应文件的请求至所述源主机,若仅监控到所述文件的修改,所述服务器记录所述日志,对所述文件和修改后的文件进行比较,得到所述数据增量并发送至所述服务器;

所述服务器接收到所述数据增量后,先对所述服务器内部的所述文件列表更新所述数据增量,然后向所述待备份主机发送所述数据增量,所述待备份主机接收到所述数据增量后,对其检测发现仅涉及所述部分文件的修改,因此仅对所述共享磁盘中的所述部分文件进行更新,对不涉及修改的所述文件不做更新;

备份完成后,所述源主机发送备份结束指令至所述服务器,所述服务器发送备份结束指令至所述待备份主机,所述待备份主机接到指令后将内部的所述共享磁盘中的内容拷贝至本地,将所述待备份主机中的所述共享磁盘从所述待备份主机中卸载。

具体而言,本发明实施例通过提供iscsi搭载共享磁盘,监控程序以及记录日志,对文件的备份建立了通道,实现了对文件的快速备份,大大节省了备份所需的时间,进而节约了备份所需要的计算资源。

具体而言,本发明实施例通过基于扇区数据的备份方法,通过收集备份过程中已有的文件建立备份方法,并不断根据新的数据优化备份方法,实现提高备份过程中备份的效率,进而节约了备份所需要的计算资源;通过建立服务器、所述源主机和所述待备份主机之间的联系,设置服务器的所述监控程序,通过所述待备份主机挂载的所述共享磁盘,对文件的备份建立了通道,实现了对文件的快速备份,节省了备份所需的时间,进而节约了备份所需要的计算资源。

至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1