一种故障监控与处理方法、装置和电子设备与流程

文档序号:31620571发布日期:2022-09-23 23:07阅读:43来源:国知局
一种故障监控与处理方法、装置和电子设备与流程

1.本公开实施例涉及运维系统故障处理技术领域,更具体地,涉及一种故障监控与处理方法、装置和电子设备。


背景技术:

2.目前互联网软件后台系统采用微服务架构或单体架构。对于微服务架构,各个微服务之间有着复杂的依赖关系,对于单体服务,各个模块之间也有着复杂依赖关系。当下游服务或模块发生故障时,很可能会影响依赖其上游服务或模块,这种影响具有连锁反应,最终导致整个服务不可用。
3.例如,在微服务架构下,用户在一个场景下使用软件系统提供的服务,需要许多微服务共同完成,假设该场场景下的链路包括a-》b-》c和a-》b-》d-》e,如果此时微服务d由于硬盘故障、网络波动、服务器硬件故障等物理因素,或上线bug、配置错误等人为因素发生故障,必定会导致a-》b-》d链路受到影响。此时由于d的故障,导致了a、b微服务依赖于d的功能的不可用。此时,会接收到微服务a、微服务b、微服务d的告警。
4.对与上述情况,目前的方法是采用人工处理,尤其链路复杂时,存在排查周期过长,处理时间长,人员协调难度大,资源消耗大,周知难度大,过于依赖于处理人员对故障发生的经验等处理效率低的缺点。


技术实现要素:

5.本公开实施例的一个目的是提供一种故障监控与处理方法、装置和电子设备的新的技术方案。
6.根据本公开的第一方面,提供了一种故障监控与处理方法,包括:基于业务场景配置业务系统告警拓扑树,所述告警拓扑树包括具有关联信息的拓扑节点;对业务系统的数据进行监控,获得告警信息;根据所述告警信息,定位告警节点的根因节点,并基于所述根因节点进行链路聚合,得到故障链路,其中,所述告警节点包括所述拓扑节点的一个或多个;获取与所述告警节点相关联的预案信息,执行所述预案信息中包括的预案任务,对所述故障链路进行修复;获取所述预案任务执行结果,根据所述预案任务执行结果进行故障分类,得到故障分类结果,对所述拓扑节点的关联信息进行更新。
7.可选地,所述基于业务场景配置业务系统告警拓扑树,包括:基于业务场景的每一微服务节点,构建与所述微服务节点一一对应的拓扑节点;为每一拓扑节点设置关联信息,得到所述告警拓扑树;其中,所述关联信息包括告警指标信息、故障类型、与所述故障类型对应的预案信息,所述告警指标信息包括技术指标告警信息和业务指标告警信息。
8.可选地,根据所述告警信息,定位告警节点的根因节点,包括:根据所述告警信息,得到告警场景;遍历所述告警场景的拓扑节点,将自身为告警节点、且其子节点为非告警节点的拓扑节点作为根因节点。
9.可选地,所述基于所述根因节点进行链路聚合,得到故障链路,包括:获取所述根
因节点的影响节点和告警场景拓扑树的顶级节点;根据所述根因节点、影响节点和顶级节点,构造影响链路;对所述影响链路进行链路聚合,得到故障链路。
10.可选地,获取与所述告警节点相关联的预案信息包括:检测并记录所述告警节点的当前故障类型;在所述告警节点关联信息中查找与所述当前故障类型对应的预案信息,在告警节点关联信息中存在与当前故障类型匹配的预案信息的情况下,获取与当前故障类型对应的预案信息;在所述告警节点关联信息中不存在与所述当前故障类型匹配的预案信息的情况下,发出无预案提醒信息。
11.可选地,在获取与所述当前故障类型对应的预案信息之后,所述方法还包括:检测所述预案信息中的预案执行类型,在所述预案执行类型为自动执行的情况下,自动执行预案任务并返回预案任务执行结果;在所述预案执行类型为手动执行的情况下,发出手动执行预案的提示信息。
12.可选地,所述根据所述预案任务执行结果进行故障分类,得到故障分类结果,包括:根据分类指标和所述预案任务执行结果进行基尼指数的计算;通过所述基尼指数构建分类决策树,根据所述分类决策树进行故障分类,得到故障分类结果,对所述拓扑节点的关联信息进行更新;其中,所述分类指标包括告警节点、根因节点、根因节点的影响节点、影响链路、故障链路和预案信息中的一项或多项。
13.可选地,所述方法还包括:输出周知信息;其中,所述周知信息包括所述故障链路、所述根因节点、无预案提醒信息、手动执行预案的提示信息和预案任务执行结果。
14.根据本公开的第二方面,还提供了一种故障监控与处理装置,所述装置包括:配置模块,用于基于业务场景配置业务系统告警拓扑树,所述告警拓扑树包括具有关联信息的拓扑节点;监控模块,用于对业务系统的数据进行监控,告警模块,用于获得告警信息;定位模块,用于根据所述告警信息,定位告警节点的根因节点,并基于所述根因节点进行链路聚合,得到故障链路,其中,所述告警节点包括所述拓扑节点的一个或多个;处理模块,用于获取与所述告警节点相关联的预案信息,执行所述预案信息中包括的预案任务,对所述故障链路进行修复;分类模块,用于获取所述预案任务执行结果,根据所述预案任务执行结果进行故障分类,对所述拓扑节点的关联信息进行更新。
15.可选地,所述装置包括:周知模块,所述周知模块用于输出周知信息;其中,所述周知信息包括所述故障链路、所述根因节点、无预案提醒信息、手动执行预案的提示信息和预案任务执行结果。
16.根据本公开的第三方面,还提供了一种电子设备,包括存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序,以实现根据本公开第一方面所述的方法。
17.根据本公开的第四方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序在被处理器执行时实现根据本公开的第一方面所述的方法。
18.本公开实施例的一个有益效果在于,通过前置配置由具有关联信息的拓扑节点构成的业务系统告警拓扑树,以场景的视角去收敛可能发生的故障情况,对业务系统的数据进行监控,获得告警信息;根据告警信息和业务系统告警拓扑树,定位告警节点的根因节点,并基于根因节点进行链路聚合,得到故障链路,对于已知稳定的故障,获取与告警节点
相关联的预案信息,执行预案信息中包括的预案任务,对故障链路进行修复,可以全故障周期自动处理,减少了故障定位、故障处理的时间;对于未知或非稳定的故障,可以通过周知出的故障链路,减少了故障定位的时间。并且获取预案任务执行结果,根据预案任务执行结果进行故障分类,得到故障分类结果,对拓扑节点的关联信息进行更新,随着软件系统运行时间的增长,故障发生的次数也会逐渐积累,对分类的准确度也将越来越高,自动化程度也将越来越高,需要人工干预的时间也越来越少,从而可以大大提高故障的处理效率。
19.通过以下参照附图对本公开的示例性实施例的详细描述,本公开实施例的其它特征及其优点将会变得清楚。
附图说明
20.被结合在说明书中并构成说明书的一部分的附图示出了本公开的实施例,并且连同其说明一起用于解释本公开实施例的原理。
21.图1为本实施例提供的一种故障监控与处理方法的流程图;
22.图2是本实施例的拓扑节点联系图;
23.图3是本实施例创建的业务系统告警拓扑树的结构示意图;
24.图4是一个业务场景中发生告警的节点示意图;
25.图5是本实施例提供一种故障监控与处理装置的结构示意图;
26.图6是根据一个实施例的一种智能运维系统的整体结构和功能示意图;
27.图7是根据一个实施例的电子设备的硬件结构示意图。
具体实施方式
28.现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
29.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
30.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
31.在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
32.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
33.需要说明的是,本技术中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
34.本实施例提供一种故障监控与处理方法,参考图1,包括如下步骤s101~s105:
35.s101、基于业务场景配置业务系统告警拓扑树。
36.在一个例子中,一个业务场景包括多个微服务节点,任一微服务节点发生故障则会导致整体故障异常,因此,本实施例基于业务场景配置业务系统告警拓扑树,告警拓扑树
包括具有关联信息的拓扑节点,每一拓扑节点对应于一微服务节点,从而根据微服务节点之间的服务关系可以构成告警拓扑树,从而在任一微服务节点发生异常时,快速找到异常点,该告警拓扑树可以由人工配置,也可以由微服务接口调用各微服务节点之间的依赖关系直接构建,还可以根据业务指标的各节点进行构建。
37.具体地,告警拓扑树的配置方法可以是基于业务场景的每一微服务节点,构建与微服务节点一一对应的拓扑节点;为每一拓扑节点设置关联信息,得到告警拓扑树。其中,关联信息包括告警指标信息、故障类型、与故障类型对应的预案信息,参考图2,图2为本实施例的拓扑节点联系图,其中,一个拓扑节点关联有告警指标信息、故障类型,一个故障类型关联一个预案。
38.其中,考虑到实际应用时,发生告警的因素不仅包括技术故障,还包括业务数据的错误,因此,本实施例的告警指标信息包括技术指标告警信息和业务指标告警信息。其中,技术指标是由网络链接,硬盘速率等物理因素所影响,业务指标受营销活动,代码逻辑等人为因素所影响。例如,在一个共享单车的应用场景中,技术指标告警信息可以是(remote procedure call protocol,rpc)远程过程调用协议接口成功率,接口延迟数据等,业务指标告警信息可以是开锁成功率,故障上报成功率等。
39.故障类型可以包括故障的原因,故障原因所属的种类和产生的后果,预案信息可以包括对应于每一种故障类型的解决办法信息,该解决办法信息可以包括自动执行的预案任务,以及需要手动执行的预案任务,对于自动执行的预案任务可以在触发预案之后,自动执行预案,对于需要手动执行的预案可以由人工手动执行。
40.参考图3,图3为本实施例创建的业务系统告警拓扑树的结构示意图,其中,每一圆圈代表拓扑节点,每一拓扑节点具有节点编号,每一节点对应一个微服务,不同节点的微服务类型可以相同,也可以不同。例如,节点1对应微服务a,节点2对应微服务b,节点3对应微服务c,节点4对应另一微服务b,节点5对应微服务d,节点6对应另一微服务d,节点7对应一微服务e,节点8对应另一微服务e。需要说明的是,一个业务场景也可以有多个拓扑树。
41.在业务场景的业务系统告警拓扑树构建完成之后,可以通过该告警拓扑树对该业务场景进行系统监控。
42.s102、对业务系统的数据进行监控,获得告警信息。
43.本实施例中,可以预先设置监控指标,获取系统的运行日志,监测日志中与监控指标对应的数据是否触发告警指标,若触发告警指标,则发出告警。
44.例如,对业务系统中的接口延迟信息进行监控,在接口延迟时间大于预设时间时,表征对应的节点异常,此时异常的节点发出告警。
45.本实施例的告警信息可以包括发生告警的时间和发生告警的节点。获得告警信息可以为根因节点的定位提供基础数据,其中,根因节点为导致告警发生的根本原因对应的节点。
46.s103、根据告警信息,定位告警节点的根因节点,并基于根因节点进行链路聚合,得到故障链路。
47.本实施例中的告警节点所述拓扑节点的一个或多个。可以理解的是,在众多微服务节点中,可能是某一个节点发生告警,也可以是多个节点发生告警,当仅有一个节点发生告警时,根因节点则为告警节点。而当告警节点包括多个时,由于多个节点均告警可能是因
为某一个节点发生告警导致其他关联的节点收到影响,也就是说告警节点本身可能没有发生故障,是由于受到发生异常的节点的影响,才发生的报警,因此,本实施例通过根据告警信息,定位告警节点的根因节点,来确定导致告警的根因。
48.具体地,定位告警节点的根因节点,包括:根据告警信息,得到告警场景;遍历告警场景的拓扑节点,将自身为告警节点、且其子节点为非告警节点的拓扑节点作为根因节点。
49.参考图4,图4为一个业务场景中发生告警的节点示意图。其中,节点2、节点4、节点5和节点6发生告警,其中,节点4因为节点6发生告警,节点2因为节点5而告警,而节点1因为受到节点2的影响为受影响节点,受影响节点可能发生告警也可能不告警。当这些节点发生高警时,可以通过告警节点对应的微服务节点,可以找到发生告警的微服务节点以及该告警的微服务节点对应的业务场景。
50.可以理解的是,当某一节点发生告警时,为了查找到所有的告警信息,本实施例通过遍历与告警节点关联的告警场景的所有拓扑节点,将自身为告警节点、且其子节点为非告警节点的拓扑节点作为根因节点。例如,本实施例图4的节点2、节点4、节点5和节点6发生告警,由于节点5和节点6自身为告警节点,且节点5无子节点,节点6的子节点为节点7和节点8,节点7和节点8为非告警节点,因此,节点5和节点6为根因节点。
51.根据上述实施例可知,当一节点发生告警时,会影响其他节点,为了找到可能受到影响的节点。本实施例还基于根因节点进行链路聚合,得到故障链路,从而实现故障链路的自动查找,可以对未知或非稳定的故障进行排查,减少了故障定位的时间。因此,可以减少人工响应时间、故障定位或故障处理时间。
52.具体地,基于根因节点进行链路聚合,得到故障链路,包括:获取根因节点的影响节点和告警场景拓扑树的顶级节点;根据根因节点、影响节点和顶级节点,构造影响链路;对影响链路进行链路聚合,得到故障链路。
53.延续图4的例子,其中根因节点为节点5和节点6,节点4是因为节点6发生告警,节点2是因为节点5发生告警,节点1是因为节点2发生告警,因此,影响节点包括节点1、节点2和节点4,且由于图4可知,节点1为当前告警场景拓扑树的顶级节点,因此,可以根据节点1、节点2、节点4、节点5和节点6构造影响链路,影响链路包括节点1、节点2和节点5构成的第一链路,以及,节点1、节点4和节点6构成的第二链路,将第一链路和第二链路进行链路聚合,得到故障链路,即最后的故障链路包括节点1、节点2、节点4、节点5和节点6共同构成的一条链路。
54.本实施例通过对根因节点进行定位,可以快速找到发生告警的根本原因,再通过根因节点进行链路聚合,得到故障链路,可以实现对业务场景中发生影响的告警节点进行聚合,快速找到所有发生异常的节点,以便于所所有故障链路信息的周知,达到快速处理未知故障,通知相关负责部门的目的。
55.s104、获取与告警节点相关联的预案信息,执行预案信息中包括的预案任务,对故障链路进行修复。
56.由s101和图2可知,每一告警节点关联有对应的故障和预案信息,当该告警节点发生告警时,可以根据该节点发生告警所触发的告警指标是技术指标告警信息还是业务指标告警信息,从而根据告警信息获取该告警信息对应的故障类型,从而获取故障类型关联的预案信息,该预案信息中包括预案任务,该预案任务可以是根据历史数据得到的解决故障
的预案任务,从而实现对故障链路的修复。
57.具体地,获取与告警节点相关联的预案信息包括:检测并记录告警节点的当前故障类型;在告警节点关联信息中查找与当前故障类型对应的预案信息,并获取与当前故障类型对应的预案信息;在告警节点关联信息中不存在与当前故障类型匹配的预案信息的情况下,发出无预案提醒信息。
58.本实施例中,检测告警节点的当前故障类型可以根据告警节点所触发的告警指标来确定,记录当前故障类型可以在系统的迭代中,将当前故障类型作为历史记录,对系统进行更新,提高系统的故障处理效率。
59.可以理解的是,在业务系统的运行中会存在新的故障,当某一节点发生的故障是新的故障时,告警节点存在未关联该新的故障对应的预案信息的情况,因此,本实施例还包括:在告警节点关联信息中查找与当前故障类型对应的预案信息,在告警节点关联信息中存在与当前故障类型匹配的预案信息的情况下,说明该故障对应的处理方案已经预先存储,属于稳定的故障,获取与当前故障类型对应的预案信息,并通过执行该预案信息中的预案任务,对故障链路进行修复。
60.而在告警节点关联信息中不存在与当前故障类型匹配的预案信息的情况下,说明当前故障为新的故障,是未知的不稳定的故障,此时发出无预案提醒信息,相关工作人员在接收到无预案提醒信息之后,可以通过人工手动排查,对故障进行修复,并且可以在对当前故障进行修复之后,对拓扑树进行更新,设置新的告警指标,从而提高告警拓扑树的故障处理效率。
61.考虑到业务系统的复杂性,有些故障的解决方法不能自动执行,需要人为参与,因此本实施例在获取与当前故障类型对应的预案信息之后,还包括:检测预案信息中的预案执行类型,在预案执行类型为自动执行的情况下,自动执行预案任务并返回预案任务执行结果,实现全周期不需要人工干预,提高业务系统的稳定性,以及缩短对故障的处理时间。在预案执行类型为手动执行的情况下,发出手动执行预案的提示信息,相关人员手动执行对应的预案,随着软件系统运行时间的增长,故障发生的次数也会逐渐积累,对故障的检测和处理效率也会越来越高。
62.s105、获取预案任务执行结果,根据预案任务执行结果进行故障分类,得到故障分类结果,对拓扑节点的关联信息进行更新。
63.可以理解的是,当预案任务被执行之后,若故障消除,则说明该预案任务是正确的,则在下次发生相同的故障时,就可以继续使用同样的预案任务来解决该故障,当预案任务被执行之后,若故障未消除,则说明,该预案任务不能解决上述故障,则可以通过调整该故障对应的预案信息,来达到更好的故障处理效果。
64.同时,本实施例还根据预案任务执行结果进行故障分类,得到故障分类结果,可以对不同的故障类别化,3.随着软件系统运行时间的增长,故障发生的次数也会逐渐积累,对分类的准确度也将越来越高,自动化程度也将越来越高,需要人工干预的时间也越来越少。
65.具体地,根据预案任务执行结果进行故障分类,得到故障分类结果包括:根据分类指标和预案任务执行结果进行基尼指数的计算;通过基尼指数构建分类决策树,根据分类决策树进行故障分类,得到故障分类结果,对拓扑节点的关联信息进行更新。
66.其中,所述分类指标包括告警节点、根因节点、根因节点的影响节点、影响链路、故
障链路和预案信息中的一项或多项。分类指标还可以包括故障链路增长时间、预案类型、人工打分等指标。
67.分类的类型可以为稳定和非稳定两类,对于稳定的故障,我们可以认为该故障可以通过实现本实施例方法的业务告警系统自动执行预案任务,全周期不需要人工干预。对于非稳定的故障,可以通过人工进行判断是否执行预案。
68.在一个例子中,本实施例还包括:输出周知信息;其中,周知信息包括故障链路、根因节点、无预案提醒信息、手动执行预案的提示信息和预案任务执行结果等本实施例中需要周知的信息。
69.本实施例通过前置配置由具有关联信息的拓扑节点构成的业务系统告警拓扑树,以场景的视角去收敛可能发生的故障情况,对业务系统的数据进行监控,获得告警信息;根据告警信息和业务系统告警拓扑树,定位告警节点的根因节点,并基于根因节点进行链路聚合,得到故障链路,对于已知稳定的故障,获取与告警节点相关联的预案信息,执行预案信息中包括的预案任务,对故障链路进行修复,可以全故障周期自动处理,减少了故障定位、故障处理的时间;对于未知或非稳定的故障,可以通过周知出的故障链路,减少了故障定位的时间。并且获取预案任务执行结果,根据预案任务执行结果进行故障分类,得到故障分类结果,对拓扑节点的关联信息进行更新,随着软件系统运行时间的增长,故障发生的次数也会逐渐积累,对分类的准确度也将越来越高,自动化程度也将越来越高,需要人工干预的时间也越来越少,从而可以大大提高故障的处理效率。
70.本实施例提供一种故障监控与处理装置500,参考图5,该装置包括:
71.配置模块501,用于基于业务场景配置业务系统告警拓扑树,告警拓扑树包括具有关联信息的拓扑节点;
72.监控模块502,用于对业务系统的数据进行监控,
73.告警模块503,用于获得告警信息;
74.定位模块504,用于根据所述告警信息,定位告警节点的根因节点,并基于所述根因节点进行链路聚合,得到故障链路,其中,所述告警节点包括所述拓扑节点的一个或多个;
75.处理模块505用于获取与所述告警节点相关联的预案信息,执行所述预案信息中包括的预案任务,对所述故障链路进行修复;
76.分类模块506用于获取所述预案任务执行结果,根据所述预案任务执行结果进行故障分类,对所述拓扑节点的关联信息进行更新。
77.本实施例的装置还包括:周知模块507,周知模块用于输出周知信息;其中,所述周知信息包括所述故障链路、所述根因节点、无预案提醒信息、手动执行预案的提示信息和预案任务执行结果。
78.具体地,配置模块501用于基于业务场景的每一微服务节点,构建与所述微服务节点一一对应的拓扑节点;为每一拓扑节点设置关联信息,得到所述告警拓扑树;其中,所述关联信息包括告警指标信息、故障类型、与所述故障类型对应的预案信息,所述告警指标信息包括技术指标告警信息和业务指标告警信息。
79.定位模块504用于根据所述告警信息,得到告警场景;遍历所述告警场景的拓扑节点,将自身为告警节点、且其子节点为非告警节点的拓扑节点作为根因节点。
80.定位模块504用于获取所述根因节点的影响节点和告警场景拓扑树的顶级节点;根据所述根因节点、影响节点和顶级节点,构造影响链路;对所述影响链路进行链路聚合,得到故障链路。
81.处理模块505用于检测并记录所述告警节点的当前故障类型;在所述告警节点关联信息中查找与所述当前故障类型对应的预案信息,在告警节点关联信息中存在与当前故障类型匹配的预案信息的情况下,获取与当前故障类型对应的预案信息;在所述告警节点关联信息中不存在与所述当前故障类型匹配的预案信息的情况下,发出无预案提醒信息。
82.处理模块505用于检测所述预案信息中的预案执行类型,在所述预案执行类型为自动执行的情况下,自动执行预案任务并返回预案任务执行结果;在所述预案执行类型为手动执行的情况下,发出手动执行预案的提示信息。
83.分类模块506用于根据分类指标和所述预案任务执行结果进行基尼指数的计算;通过所述基尼指数构建分类决策树,根据所述分类决策树进行故障分类,得到故障分类结果,对所述拓扑节点的关联信息进行更新;其中,所述分类指标包括告警节点、根因节点、根因节点的影响节点、影响链路、故障链路和预案信息中的一项或多项。
84.下面根据本实施例在一个例子中的应用对本实施例进行说明:
85.本实施例的故障监控与处理装置可以在一种智能运维系统上运行,也就是一种智能运维系统包括本实施例的故障监控与处理装置。
86.参考图6,图6为一种智能运维系统的整体结构和功能示意图,可以通过配置模块基于业务场景进行拓扑节点配置以及场景拓扑树的布置,从而形成如图3所示的业务系统告警拓扑树。
87.通过监控模块对日志和监控打点进行统计,通过告警模块,对监控模块获取的数据和告警指标信息进行对比,检测指标是否异常,当触发告警指标时,产生告警并记录该告警。
88.发生告警后,告警模块将告警信息发送至定位模块,定位模块根据告警节点的告警信息进行告警场景的关联,并对告警的拓扑节点进行场景匹配,此时,匹配场景后,考虑到告警可能是偶发性的,则可以检测当前的节点是否恢复运行,若恢复运行则将恢复信息发送至周知模块,周知模块通过im软件或邮件发送周知信息至对应的负责人。若未恢复,则对故障进行根因定位,进行故障链路聚合,得到聚合后的故障链路,并发送至周知模块,周知模块组装故障链路信息以及根因的故障周知。
89.同时,通过处理模块对故障链路进行处理,通过记录告警节点的当前故障类型,在告警节点关联信息中查找与当前故障类型对应的预案信息,并获取与当前故障类型对应的预案信息,在告警节点关联信息中存在与当前故障类型匹配的预案信息的情况下,说明该故障对应的处理方案已经预先存储,属于稳定的故障,则获取与当前故障类型对应的预案信息,并通过执行该预案信息中的预案任务,对故障链路进行修复。在告警节点关联信息中不存在与当前故障类型匹配的预案信息的情况下,也就是当前故障类型属于非稳定的故障类型,则发出无预案提醒信息,人工进行手动处理并标记。并且自行执行和手动自行的决策结果发送至周知模块,周知模块组装决策周知,通过im软件或邮件发送周知信息至对应的目标。
90.在预案执行之后,分类模块获取预案执行结果,并判断当前预案属于手动标记处
理的还是自动处理的,若是手动标记处理,则通过决策树算法对故障进行分类,若是自动处理的,则结束本次故障处理和检测任务。
91.本实施例通过前置配置由具有关联信息的拓扑节点构成的业务系统告警拓扑树,以场景的视角去收敛可能发生的故障情况,对业务系统的数据进行监控,获得告警信息;根据告警信息和业务系统告警拓扑树,定位告警节点的根因节点,并基于根因节点进行链路聚合,得到故障链路,对于已知稳定的故障,获取与告警节点相关联的预案信息,执行预案信息中包括的预案任务,对故障链路进行修复,可以全故障周期自动处理,减少了故障定位、故障处理的时间;对于未知或非稳定的故障,可以通过周知出的故障链路,减少了故障定位的时间。并且获取预案任务执行结果,根据预案任务执行结果进行故障分类,得到故障分类结果,对拓扑节点的关联信息进行更新,随着软件系统运行时间的增长,故障发生的次数也会逐渐积累,对分类的准确度也将越来越高,自动化程度也将越来越高,需要人工干预的时间也越来越少,从而可以大大提高故障的处理效率。
92.图7是根据另一个实施例的电子设备的硬件结构示意图。
93.如图7所示,该电子设备700包括处理器710和存储器720,该存储器720用于存储可执行的计算机程序,该处理器710用于根据该计算机程序的控制,执行如以上任意方法实施例的方法。
94.本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,所述计算机程序在被处理器执行时实现如以上任意方法实施例的方法。
95.本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
96.计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
97.这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
98.用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如
smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
99.这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
100.这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
101.也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
102.附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
103.以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1