一种监控定时快照任务的方法、装置、设备及介质与流程

文档序号:30583244发布日期:2022-06-29 13:38阅读:166来源:国知局
一种监控定时快照任务的方法、装置、设备及介质与流程

1.本发明涉及计算机领域,并且更具体地涉及一种监控定时快照任务的方法、装置、设备及可读介质。


背景技术:

2.类似于使用照相机抓拍自然界某个时间点的瞬间影像,文件系统快照是为了抓拍下某一时间点某份数据集的内容,以防止数据被污染,或因病毒、配置文件损坏以及系统崩溃等原因导致数据丢失。当用户想要恢复至创建快照时状态时,可通过快照回滚进行恢复操作,并从快照抓拍时间点为起点从头来过,也可以从这个时间点的数据影像,创建多份平行的存储空间。为便于及时对文件系统数据进行备份,服务器中通常会设置定时快照任务,用户可设定定时策略,自动为文件系统进行备份,创建快照,避免因长时间不进行快照备份操作,导致快照回滚前后数据差距过大,影响用户使用。但是定时快照任务在后台自动进行,成功与否用户无法感知,对于定时快照任务执行失败产生的后果,用户也难以及时处理,可能会影响到用户业务,从而造成用户损失。现有的定时快照任务的告警与管理中,主要针对于快照任务触发的过程中,但是触发过程中的处理是有限的,对触发之前,创建任务可能存在的风险的预判,以及触发之后创建失败造成的不良后果,无法主动进行避免。


技术实现要素:

3.有鉴于此,本发明实施例的目的在于提出一种监控定时快照任务的方法、装置、设备及可读介质,通过使用本发明的技术方案,能够及时告知用户并提前规避当前定时快照任务执行过程中存在的风险,能够在发生异常后及时进行修复,能够避免损失扩大,提升用户体验。
4.基于上述目的,本发明的实施例的一个方面提供了一种监控定时快照任务的方法,包括以下步骤:
5.每经过阈值时间检测系统环境,并基于检测的系统环境判断是否对快照任务产生影响;
6.响应于检测的系统环境对快照任务产生影响,将检测到的系统参数以及相应告警发送给用户;
7.响应于满足快照任务的触发条件,执行快照任务并判断快照任务是否执行成功;
8.响应于快照任务执行失败,在预设时间段内每间隔设定时间重新执行快照任务;
9.响应于在预设时间段内快照任务仍然执行失败,向用户发出快照任务执行失败的告警。
10.根据本发明的一个实施例,每经过阈值时间检测系统环境,并基于检测的系统环境判断是否对快照任务产生影响包括:
11.每经过阈值时间分别检测系统的cpu的使用率、i/o等待的数据量和存储池容量的数据;
12.将检测到的数据分别与对应的预设阈值进行比较;
13.响应于cpu的使用率、i/o等待的数据量和存储池容量中的任意一个的检测数据大于对应的预设阈值,确定系统环境对快照任务产生影响。
14.根据本发明的一个实施例,每经过阈值时间分别检测系统的cpu的使用率、i/o等待的数据量和存储池容量的数据包括:
15.设置检测时间段和检测间隔时间;
16.在检测时间段内每经过检测间隔时间检测一次系统的cpu的使用率、i/o等待的数据量和存储池容量的数据;
17.将检测到的相同类型的数据相加后求平均值以得到最终的检测数据。
18.根据本发明的一个实施例,还包括:
19.响应于发生系统断电、配置节点切换和系统升级三种情况中的任意一种,在快照任务执行后对系统中的各类型资源残留进行清理。
20.本发明的实施例的另一个方面,还提供了一种监控定时快照任务的装置,装置包括:
21.判断模块,判断模块配置为每经过阈值时间检测系统环境,并基于检测的系统环境判断是否对快照任务产生影响;
22.发送模块,发送模块配置为响应于检测的系统环境对快照任务产生影响,将检测到的系统参数以及相应告警发送给用户;
23.执行模块,执行模块配置为响应于满足快照任务的触发条件,执行快照任务并判断快照任务是否执行成功;
24.重试模块,重试模块配置为响应于快照任务执行失败,在预设时间段内每间隔设定时间重新执行快照任务;
25.告警模块,告警模块配置为响应于在预设时间段内快照任务仍然执行失败,向用户发出快照任务执行失败的告警。
26.根据本发明的一个实施例,判断模块还配置为:
27.每经过阈值时间分别检测系统的cpu的使用率、i/o等待的数据量和存储池容量的数据;
28.将检测到的数据分别与对应的预设阈值进行比较;
29.响应于cpu的使用率、i/o等待的数据量和存储池容量中的任意一个的检测数据大于对应的预设阈值,确定系统环境对快照任务产生影响。
30.根据本发明的一个实施例,判断模块还配置为:
31.设置检测时间段和检测间隔时间;
32.在检测时间段内每经过检测间隔时间检测一次系统的cpu的使用率、i/o等待的数据量和存储池容量的数据;
33.将检测到的相同类型的数据相加后求平均值以得到最终的检测数据。
34.根据本发明的一个实施例,还包括清理模块,清理模块配置为:
35.响应于发生系统断电、配置节点切换和系统升级三种情况中的任意一种,在快照任务执行后对系统中的各类型资源残留进行清理。
36.本发明的实施例的另一个方面,还提供了一种计算机设备,该计算机设备包括:
37.至少一个处理器;以及
38.存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行时实现上述任意一项方法的步骤。
39.本发明的实施例的另一个方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述任意一项方法的步骤。
40.本发明具有以下有益技术效果:本发明实施例提供的监控定时快照任务的方法,通过每经过阈值时间检测系统环境,并基于检测的系统环境判断是否对快照任务产生影响;响应于检测的系统环境对快照任务产生影响,将检测到的系统参数以及相应告警发送给用户;响应于满足快照任务的触发条件,执行快照任务并判断快照任务是否执行成功;响应于快照任务执行失败,在预设时间段内每间隔设定时间重新执行快照任务;响应于在预设时间段内快照任务仍然执行失败,向用户发出快照任务执行失败的告警的技术方案,能够及时告知用户并提前规避当前定时快照任务执行过程中存在的风险,能够在发生异常后及时进行修复,能够避免损失扩大,提升用户体验。
附图说明
41.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
42.图1为根据本发明一个实施例的监控定时快照任务的方法的示意性流程图;
43.图2为根据本发明一个实施例的监控定时快照任务的装置的示意图;
44.图3为根据本发明一个实施例的计算机设备的示意图;
45.图4为根据本发明一个实施例的计算机可读存储介质的示意图。
具体实施方式
46.为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
47.基于上述目的,本发明的实施例的第一个方面,提出了一种监控定时快照任务的方法的一个实施例。图1示出的是该方法的示意性流程图。
48.如图1中所示,该方法可以包括以下步骤:
49.s1每经过阈值时间检测系统环境,并基于检测的系统环境判断是否对快照任务产生影响。
50.本发明的方法可以采用c语言以及python语言,设计实现定时快照任务的监控模块,将监控模块集成到系统中并根据设置的参数自动运行。针对快照任务触发所需环境条件进行定向检测可以预防快照相关操作执行失败,检测到环境存在异常时,通知给用户,告知用户潜在的会导致定时快照相关操作失败的风险,由用户进行预处理,如果当次定时快照任务触发完成后与下次定时快照任务触发之前间隔一定时间,则会进行多次检测,例如设定每隔30分钟进行一次检测,下次定时快照任务触发之前2h开始进行检测,则最多可进行4次检测操作。可以提供给用户手动调用接口,用户处理完之后,可手动调用进行检测,判
断用户操作是否生效。可以提供给用户接口,用户可手动关闭自动监测功能,并提供当前监控的资源列表,提供给用户进行选择。可以提供给用户定时开启应用的接口,当用户采用暂时关闭部分应用的方式,以降低快照任务操作失败的风险时,可将该应用加入到定时开启的应用列表中,在指定时刻,自动开启应用。可以预留可扩展接口,可根据需求主动添加新的资源进行监控,并主动设置阈值。检测时可以每经过阈值时间分别检测系统的cpu的使用率、i/o等待的数据量和存储池容量的数据,将检测到的数据分别与对应的预设阈值进行比较,如果cpu的使用率、i/o等待的数据量和存储池容量中的任意一个的检测数据大于对应的预设阈值,则确定系统环境对快照任务产生影响。检测时采用多点检测取平均值的策略,首先设置检测时间段和检测间隔时间,然后在检测时间段内每经过检测间隔时间检测一次系统的cpu的使用率、i/o等待的数据量和存储池容量的数据,最后将检测到的相同类型的数据相加后求平均值以得到最终的检测数据。
51.s2响应于检测的系统环境对快照任务产生影响,将检测到的系统参数以及相应告警发送给用户。
52.如果判断的结果是当前系统环境可能对将要进行的快照任务产生影响,需要将检测到的具体数据以及告警发送给用户,提示用户关闭部分应用或采取其他异常应对措施,以降低快照任务操作失败的风险。
53.s3响应于满足快照任务的触发条件,执行快照任务并判断快照任务是否执行成功。
54.当用户为文件系统创建定时快照任务后,系统会自动为其分配资源,设置定时任务,并定期轮询,判断是否满足定时快照任务触发条件,在满足触发条件后,即可进行快照的删除或创建操作,并不断的判断快照的删除或创建操作是否执行成功。
55.s4响应于快照任务执行失败,在预设时间段内每间隔设定时间重新执行快照任务。
56.如果快照的删除或创建操作执行失败,则系统自动进行判断操作执行失败原因,并自动产生告警信息,并记录在定时任务资源属性中,属性信息中记录当前任务发生的异常以及异常详细信息。定时快照任务执行失败后,可以设置一个时间段,例如5分钟,然后可以每间隔1分钟重新触发一次快照任务,如果在此期间快照创建或删除操作执行成功之后,则查询该资源是否包含告警信息,若包含,则进行告警信息的清除操作,不需要向用户反馈。
57.s5响应于在预设时间段内快照任务仍然执行失败,向用户发出快照任务执行失败的告警。
58.如果在上述时间段内快照任务仍然执行失败,则需要向用户发出告警,快照的创建与删除失败的告警分别单独进行,创建失败与成功仅对创建的告警信息产生影响,不影响删除告警信息,反之亦然。告警信息生成之后,将告警信息上报,每5s触发一次定时快照告警的检测操作,自动获取告警信息,展示给用户。
59.通过本发明的技术方案,能够及时告知用户并提前规避当前定时快照任务执行过程中存在的风险,能够在发生异常后及时进行修复,能够避免损失扩大,提升用户体验。
60.在本发明的一个优选实施例中,每经过阈值时间检测系统环境,并基于检测的系统环境判断是否对快照任务产生影响包括:
61.每经过阈值时间分别检测系统的cpu的使用率、i/o等待的数据量和存储池容量的数据;
62.将检测到的数据分别与对应的预设阈值进行比较;
63.响应于cpu的使用率、i/o等待的数据量和存储池容量中的任意一个的检测数据大于对应的预设阈值,确定系统环境对快照任务产生影响。
64.在本发明的一个优选实施例中,每经过阈值时间分别检测系统的cpu的使用率、i/o等待的数据量和存储池容量的数据包括:
65.设置检测时间段和检测间隔时间;
66.在检测时间段内每经过检测间隔时间检测一次系统的cpu的使用率、i/o等待的数据量和存储池容量的数据;
67.将检测到的相同类型的数据相加后求平均值以得到最终的检测数据。对当前系统中的整体环境进行检测,可以对当前系统中cpu的使用情况、io wait的数值大小和存储池容量等因素进行检测和判断。检测时采用多点监测取平均值的策略,如检测cpu状态时,对系统状态持续检测5min,每隔10s中检测一次,最终取平均值,用于判断系统的cpu的使用率,其他数据可以采用相同的方法进行检测。当发现系统中各类型资源的状态异常和使用率过高,会存在导致快照任务操作失败时,提示用户关闭部分应用或采取其他异常应对措施,以降低快照任务操作失败的风险。
68.在本发明的一个优选实施例中,还包括:
69.响应于发生系统断电、配置节点切换和系统升级三种情况中的任意一种,在快照任务执行后对系统中的各类型资源残留进行清理。在正常情况下,快照创建或删除操作执行失败时,系统会自动清理操作产生的资源或对系统配置的影响,避免产生资源残留而影响其他业务的正常运行。但是当遇到系统断电、配置节点切换或者系统升级等情况时,此时快照相关操作本身可能无法正常清理残留资源,需要主动清理资源,定时快照任务触发时,主动对系统中的各类型资源残留或异常配置进行清理,系统中可以自动维护一个快照关系映射表,快照创建时,将新快照信息写入映射表中,快照删除时,则将快照信息从映射表中删除,定时快照任务触发后,进行自动清理,校验映射表中各条目的有效性,对于无效条目进行主动清理,根据映射表中的信息,校验系统中各类型快照所需资源,当发现映射表中不存在的快照的资源时,将残留资源自动清理,避免资源残留而影响正常业务。
70.定时快照任务执行失败后,可能会导致用户数据备份失败。当系统发生故障,需要进行数据回滚时,无法及时获取最新的文件系统快照信息,导致文件系统数据损失成本增加。本发明的技术方案能够及时告知用户当前定时快照任务执行过程中存在的风险,提前规避,还能够在发生异常后可及时告知用户,及时进行修复,而且可以自动清理系统中的各类型资源残留与异常配置信息,避免损失扩大,提升用户体验。
71.需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,上述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器(read-only memory,rom)或随机存取存储器(random access memory,ram)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
72.此外,根据本发明实施例公开的方法还可以被实现为由cpu执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被cpu执行时,执行本发明实施例公开的方法中限定的上述功能。
73.基于上述目的,本发明的实施例的第二个方面,提出了一种监控定时快照任务的装置,如图2所示,装置200包括:
74.判断模块,判断模块配置为每经过阈值时间检测系统环境,并基于检测的系统环境判断是否对快照任务产生影响;
75.发送模块,发送模块配置为响应于检测的系统环境对快照任务产生影响,将检测到的系统参数以及相应告警发送给用户;
76.执行模块,执行模块配置为响应于满足快照任务的触发条件,执行快照任务并判断快照任务是否执行成功;
77.重试模块,重试模块配置为响应于快照任务执行失败,在预设时间段内每间隔设定时间重新执行快照任务;
78.告警模块,告警模块配置为响应于在预设时间段内快照任务仍然执行失败,向用户发出快照任务执行失败的告警。
79.在本发明的一个优选实施例中,判断模块还配置为:
80.每经过阈值时间分别检测系统的cpu的使用率、i/o等待的数据量和存储池容量的数据;
81.将检测到的数据分别与对应的预设阈值进行比较;
82.响应于cpu的使用率、i/o等待的数据量和存储池容量中的任意一个的检测数据大于对应的预设阈值,确定系统环境对快照任务产生影响。
83.在本发明的一个优选实施例中,判断模块还配置为:
84.设置检测时间段和检测间隔时间;
85.在检测时间段内每经过检测间隔时间检测一次系统的cpu的使用率、i/o等待的数据量和存储池容量的数据;
86.将检测到的相同类型的数据相加后求平均值以得到最终的检测数据。
87.在本发明的一个优选实施例中,还包括清理模块,清理模块配置为:
88.响应于发生系统断电、配置节点切换和系统升级三种情况中的任意一种,在快照任务执行后对系统中的各类型资源残留进行清理。
89.基于上述目的,本发明实施例的第三个方面,提出了一种计算机设备。图3示出的是本发明提供的计算机设备的实施例的示意图。如图3所示,本发明实施例包括如下装置:至少一个处理器21;以及存储器22,存储器22存储有可在处理器上运行的计算机指令23,指令由处理器执行时实现以下方法:
90.每经过阈值时间检测系统环境,并基于检测的系统环境判断是否对快照任务产生影响;
91.响应于检测的系统环境对快照任务产生影响,将检测到的系统参数以及相应告警发送给用户;
92.响应于满足快照任务的触发条件,执行快照任务并判断快照任务是否执行成功;
93.响应于快照任务执行失败,在预设时间段内每间隔设定时间重新执行快照任务;
94.响应于在预设时间段内快照任务仍然执行失败,向用户发出快照任务执行失败的告警。
95.在本发明的一个优选实施例中,每经过阈值时间检测系统环境,并基于检测的系统环境判断是否对快照任务产生影响包括:
96.每经过阈值时间分别检测系统的cpu的使用率、i/o等待的数据量和存储池容量的数据;
97.将检测到的数据分别与对应的预设阈值进行比较;
98.响应于cpu的使用率、i/o等待的数据量和存储池容量中的任意一个的检测数据大于对应的预设阈值,确定系统环境对快照任务产生影响。
99.在本发明的一个优选实施例中,每经过阈值时间分别检测系统的cpu的使用率、i/o等待的数据量和存储池容量的数据包括:
100.设置检测时间段和检测间隔时间;
101.在检测时间段内每经过检测间隔时间检测一次系统的cpu的使用率、i/o等待的数据量和存储池容量的数据;
102.将检测到的相同类型的数据相加后求平均值以得到最终的检测数据。
103.在本发明的一个优选实施例中,还包括:
104.响应于发生系统断电、配置节点切换和系统升级三种情况中的任意一种,在快照任务执行后对系统中的各类型资源残留进行清理。
105.基于上述目的,本发明实施例的第四个方面,提出了一种计算机可读存储介质。图4示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图4所示,计算机可读存储介质31存储有被处理器执行时执行如下方法的计算机程序32:
106.每经过阈值时间检测系统环境,并基于检测的系统环境判断是否对快照任务产生影响;
107.响应于检测的系统环境对快照任务产生影响,将检测到的系统参数以及相应告警发送给用户;
108.响应于满足快照任务的触发条件,执行快照任务并判断快照任务是否执行成功;
109.响应于快照任务执行失败,在预设时间段内每间隔设定时间重新执行快照任务;
110.响应于在预设时间段内快照任务仍然执行失败,向用户发出快照任务执行失败的告警。
111.在本发明的一个优选实施例中,每经过阈值时间检测系统环境,并基于检测的系统环境判断是否对快照任务产生影响包括:
112.每经过阈值时间分别检测系统的cpu的使用率、i/o等待的数据量和存储池容量的数据;
113.将检测到的数据分别与对应的预设阈值进行比较;
114.响应于cpu的使用率、i/o等待的数据量和存储池容量中的任意一个的检测数据大于对应的预设阈值,确定系统环境对快照任务产生影响。
115.在本发明的一个优选实施例中,每经过阈值时间分别检测系统的cpu的使用率、i/o等待的数据量和存储池容量的数据包括:
116.设置检测时间段和检测间隔时间;
117.在检测时间段内每经过检测间隔时间检测一次系统的cpu的使用率、i/o等待的数据量和存储池容量的数据;
118.将检测到的相同类型的数据相加后求平均值以得到最终的检测数据。
119.在本发明的一个优选实施例中,还包括:
120.响应于发生系统断电、配置节点切换和系统升级三种情况中的任意一种,在快照任务执行后对系统中的各类型资源残留进行清理。
121.此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
122.此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
123.本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
124.在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括ram、rom、eeprom、cd-rom或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(dsl)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、dsl或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(cd)、激光盘、光盘、数字多功能盘(dvd)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
125.以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
126.应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
127.上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
128.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
129.所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1