告警处理方法及系统与流程

文档序号:11693071阅读:314来源:国知局
告警处理方法及系统与流程

本发明涉及业务支撑领域的告警处理技术,尤其涉及一种告警处理方法及系统。



背景技术:

监控告警事件处理是一个闭环的过程,始于故障的检测,经过告警分析、告警通知、故障处理等环节,终于故障的关闭;业务运维人员在收到告警通知之后,需要手动登录业务系统,通过手动执行一个或多个操作指令来完成故障的消除,工作量非常大;鉴于此,根据市场和运维的需求,运营商和各设备厂家也在研究通过自动化执行指令来完成告警处理的方法。

现有技术在监控系统中预先配置告警规则表,告警规则表中保存有告警与控制动作的对应关系,控制动作可以是简单的shell脚本,告警触发动作控制器收到告警事件后,通过查询告警规则表获取需要执行的控制动作,然后通过远程登录(telnet)或代理(agent)的方式执行。

然而,现有技术只能执行简单的控制动作,执行过程无法监控,无法实现复杂度高的自动化处理需求;如此,会降低故障处理准确性和处理效率。



技术实现要素:

有鉴于此,本发明实施例期望提供一种告警处理方法及系统,能实现复杂度高的自动化处理需求,提高故障处理准确性和处理效率。

为达到上述目的,本发明的技术方案是这样实现的:

本发明实施例提供一种告警处理方法,包括:

根据接收到的告警消息中携带的第一资源的标识,获取与所述第一资源存在资源关系的第二资源的标识;

根据所述第二资源的标识、所述资源关系及所述第一资源的标识生成告警处理任务流程,所述告警处理任务流程包括多个指令及执行顺序的组合;

将所述告警处理任务流程中所述多个指令按照所述执行顺序分发给各指令执行器,并接收所述各指令执行器发送的执行结果。

在上述实施例中,所述根据接收到的告警消息中携带的第一资源的标识,获取与所述第一资源存在资源关系的第二资源的标识包括:

向资源管理系统发送包括所述第一资源的标识的资源关系查询请求;

接收所述资源管理系统发送的与所述第一资源存在资源关系的第二资源的标识。

在上述实施例中,所述根据所述第二资源的标识、所述资源关系及所述第一资源的标识生成告警处理任务流程包括:

根据所述第一资源对应的故障处理指令创建所述第一资源对应的处理子流程及指令;

根据所述第二资源对应的故障处理指令创建所述第二资源对应的处理子流程及指令;

根据所述资源关系确定所述第一资源对应的处理子流程及指令与所述第二资源对应的处理子流程及指令的执行顺序;

根据所述执行顺序、所述第一资源对应的处理子流程及指令、所述第二资源对应的处理子流程及指令,生成告警处理任务流程。

在上述实施例中,所述资源关系包括直接资源关系和间接资源关系。

本发明实施例提供一种告警处理系统,包括监控系统、集中控制平台及资源管理系统;其中,

所述监控系统,用于将告警消息发送给所述集中控制平台;

所述资源管理系统,用于提供系统资源之间的资源关系;

所述集中控制平台,用于在接收到所述监控系统发送的所述告警消息后,根据所述告警消息中携带的第一资源的标识,从所述资源管理系统中获取与所述第一资源存在资源关系的第二资源的标识;根据所述第二资源的标识、所述资源关系及所述第一资源的标识生成告警处理任务流程,所述告警处理任务流程包括多个指令及执行顺序的组合;将所述告警处理任务流程中所述多个指令按照所述执行顺序分发给各指令执行器,并接收所述各指令执行器发送的执行结果。

在上述实施例中,所述集中控制平台具体用于:

向资源管理系统发送包括所述第一资源的标识的资源关系查询请求;

接收所述资源管理系统发送的与所述第一资源存在资源关系的第二资源的标识。

在上述实施例中,所述集中控制平台具体用于:

根据所述第一资源对应的故障处理指令创建所述第一资源对应的处理子流程及指令;

根据所述第二资源对应的故障处理指令创建所述第二资源对应的处理子流程及指令;

根据所述资源关系确定所述第一资源对应的处理子流程及指令与所述第二资源对应的处理子流程及指令的执行顺序;

根据所述执行顺序、所述第一资源对应的处理子流程及指令、所述第二资源对应的处理子流程及指令,生成告警处理任务流程。

在上述实施例中,所述资源关系包括直接资源关系和间接资源关系。

本发明实施例提供的告警处理方法及系统,根据告警消息中携带的第一资源的标识及获取的与所述第一资源存在资源关系的第二资源的标识,实时创建告警处理任务流程,将所述告警处理任务流程上的各个操作指令按照执行顺序分发给各指令执行器并监听各指令执行器返回的执行结果;如此,能实现复杂度高的自动化处理需求,且能使用户全面了解告警处理任务流程的执行情况及执行结果,降低了错误操作的风险,提高了故障处理准确性,进而可提高故障处理效率。

附图说明

图1为本发明实施例提供的告警处理方法的流程图;

图2为本发明实施例提供的告警处理系统的结构图;

图3为本发明实施例提供的告警处理方法的另一流程图;

图4为本发明实施例提供的生成告警处理任务流程的方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。

图1为本发明实施例提供的告警处理方法的流程图,如图1所示,该方法包括:

步骤101、根据接收到的告警消息中携带的第一资源的标识,获取与所述第一资源存在资源关系的第二资源的标识。

本发明实施例提供的告警处理方法可以应用于复杂度高的业务运维操作的自动化处理场景中;本发明实施例提供的告警处理方法的执行主体可以为告警处理系统。

这里,所述第一资源可以为本端资源,所述第二资源可以为对端资源;告警处理系统接收到告警消息后,通过解析所述告警消息获取所述告警消息中携带的第一资源的标识;根据所述第一资源的标识,获取与所述第一资源存在资源关系的第二资源的标识,具体可以为:向资源管理系统发送包括所述第一资源的标识的资源关系查询请求,接收所述资源管理系统发送的与所述第一资源存在资源关系的第二资源的标识,其中,所述资源管理系统,用于提供系统资源之间的资源关系;所述资源关系包括直接资源关系和间接资源关系。

步骤102、根据所述第二资源的标识、所述资源关系及所述第一资源的标识生成告警处理任务流程,所述告警处理任务流程包括多个指令及执行顺序的组合。

这里,所述指令是指一个原子的操作,举个例子来说,一条指令可以是一个shell脚本或sql脚本;所述任务不是简单的控制动作,而是由用户在日常业务运维操作中使用的各种操作指令(如shell脚本、sql脚本)通过一定的流程有机组合而构成的一项业务运维操作任务,所述任务是指多个指令的复杂逻辑组合,其中,所述多个指令可以顺序或并行执行,也可以根据操作指令的执行结果进行与或非逻辑判断。

可选的,所述根据所述第二资源的标识、所述资源关系及所述第一资源的标识生成告警处理任务流程的一种可选的实现方式为:根据所述第一资源对应的故障处理指令创建所述第一资源对应的处理子流程及指令;根据所述第二资源对应的故障处理指令创建所述第二资源对应的处理子流程及指令;根据所述资源关系确定所述第一资源对应的处理子流程及指令与所述第二资源对应的处理子流程及指令的执行顺序;根据所述执行顺序、所述第一资源对应的处理子流程及指令、所述第二资源对应的处理子流程及指令,生成告警处理任务流程;这里,所述执行顺序可以包括以下任意一种或组合:顺次执行、并列执行、选择分支、子流程串行、子流程并行;所述告警任务处理流程由上述多个处理子流程及指令按照所述执行顺序组合而成。

步骤103、将所述告警处理任务流程中所述多个指令按照所述执行顺序分发给各指令执行器,并接收所述各指令执行器发送的执行结果。

本发明实施例提供的告警处理方法,根据告警消息中携带的第一资源的标识及获取的与所述第一资源存在资源关系的第二资源的标识,实时创建告警处理任务流程,通过将所述告警处理任务流程上的各个操作指令按照执行顺序分发给各指令执行器,并监听各指令执行器返回的执行结果,通过对任务执行过程的监控,使得用户可以全面了解任务的执行情况及执行结果,避免了由于错误操作而可能给业务带来的严重影响;如此,能实现复杂度高的自动化处理需求,提高了故障处理准确性,进而可提高故障处理效率。

在上述实施例的基础上,所述资源关系包括以下任一种关系或组合:部署关系、网络连接关系、存储连接关系、使用关系、依赖关系、基于关系、运行关系。

图2为本发明实施例提供的告警处理系统的结构图,如图2所示,所述系统包括:监控系统201、集中控制平台202及资源管理系统203;其中,

所述监控系统201,用于将告警消息发送给所述集中控制平台202;

所述资源管理系统203,用于提供系统资源之间的资源关系;

所述集中控制平台202,用于在接收到所述监控系统201发送的所述告警消息后,根据所述告警消息中携带的第一资源的标识,从所述资源管理系统203中获取与所述第一资源存在资源关系的第二资源的标识;根据所述第二资源的标识、所述资源关系及所述第一资源的标识生成告警处理任务流程,所述告警处理任务流程包括多个指令及执行顺序的组合;将所述告警处理任务流程中所述多个指令按照所述执行顺序分发给各指令执行器204,并接收所述各指令执行器204发送的执行结果。

这里,所述资源关系包括直接资源关系和间接资源关系。可选的,所述资源关系包括以下任一种关系或组合:部署关系、网络连接关系、存储连接关系、使用关系、依赖关系、基于关系、运行关系。

本发明实施例提供的告警处理系统,根据告警消息中携带的第一资源的标识及获取的与所述第一资源存在资源关系的第二资源的标识,实时创建告警处理任务流程,通过将所述告警处理任务流程上的各个操作指令按照执行顺序分发给各指令执行器,并监听各指令执行器返回的执行结果,通过对任务执行过程的监控,使得用户可以全面了解任务的执行情况及执行结果,避免了由于错误操作而可能给业务带来的严重影响;如此,能实现复杂度高的自动化处理需求,提高了故障处理准确性,进而可提高故障处理效率。

在上述实施例的基础上,所述集中控制平台202具体用于:向资源管理系统发送包括所述第一资源的标识的资源关系查询请求;接收所述资源管理系统发送的与所述第一资源存在资源关系的第二资源的标识。

这里,所述集中控制平台202具体用于:根据所述第一资源对应的故障处理指令创建所述第一资源对应的处理子流程及指令;根据所述第二资源对应的故障处理指令创建所述第二资源对应的处理子流程及指令;根据所述资源关系确定所述第一资源对应的处理子流程及指令与所述第二资源对应的处理子流程及指令的执行顺序;根据所述执行顺序、所述第一资源对应的处理子流程及指令、所述第二资源对应的处理子流程及指令,生成告警处理任务流程。

在上述实施例的基础上,对本发明实施例提供的技术方案进一步说明如下:

监控系统对监控到的告警进行分析、过滤、压缩和通知,并将处理后的告警根据过滤规则转发到集中控制平台;

指令执行器接收集中控制平台下发的指令并执行、及将执行结果上报到集中控制平台;操作指令的执行结果包括成功、失败及失败详情、超时等。

资源管理系统提供对业务支撑网内部的业务、应用、逻辑、物理等资源数据的管理,资源管理的一个重要功能是提供各个资源数据之间的资源关系,资源关系是进行故障诊断、告警关联、性能分析等问题的关键信息之一;资源关系包括:包含型关系、关联型关系;其中,包含型关系可以用于描述一对多的关系,关联性关系可以用于描述多对多的关系;其中,关联性关系可以为以下任意一种:

部署(deployed)关系:表示源端部署在目标端,例如oracle部署在服务器上;

网络连接(netconnects)关系:表示两个逻辑单元的网络连接关系,例如服务器和路由器的网络连接;

存储连接(storconnects)关系:表示两个逻辑单元的存储连接关系,例如服务器和存储光纤交换机的存储连接;

使用(uses)关系:源端使用目标端,例如应用进程使用文件系统;

依赖(depends)关系:源端依赖于目标端,例如业务功能依赖于应用服务;

关联性关系可以为以下任意一种:

基于(basedon)关系:源端基于目标端,例如进程基于应用服务;

运行(runson)关系:源端运行在目标端,例如:应用进程运行在服务器。

图3为本发明实施例提供的告警处理方法的另一流程图;所述方法由告警处理系统执行,如图3所示,所述方法包括:

步骤301、集中控制平台以监听器(listenter)方式监听监控系统发送到消息队列的告警消息;其中,集中控制平台可以包括规则引擎和流程引擎,规则引擎用于分析告警和资源关系并自动生成告警处理任务流程,流程引擎用于执行告警处理任务流程。

步骤302、集中控制平台在接收到监控系统发送的告警消息后,解析所述告警消息获取所述告警消息中携带的第一资源的标识,规则引擎触发规则,通过所述第一资源的标识调用资源管理系统查询接口查询资源关系模型,从资源管理系统获取与第一资源相关的资源关系模型,这里,所述资源关系模型主要包括:第一资源的标识、第二资源的标识、第一资源与第二资源的资源关系;规则引擎分析资源关系模型,动态生成告警处理任务流程。实际中,每个告警的处理方案都是不同的,甚至不同时间的同一告警处理方案都是不一样的,本发明实施例根据资源关系模型进行动态分析,根据实际情况的不同灵活创建告警处理任务流程。

步骤303、在动态生成告警处理任务流程后,需要评估是否有必要使用该告警处理任务流程。

步骤304、在确定有必要使用该告警处理任务流程后,通过发短信等消息发送方式通知用户,对于核心和重要的操作可以设置为由用户通过校验码进行确认。

步骤305、在等待用户反馈超时或用户确认执行时,规则引擎通知流程引擎执行告警处理任务流程;流程引擎将该告警处理任务流程上各个操作指令分发到业务主机上的各指令执行器,并监听各指令执行器返回的执行结果;并根据各指令执行器的执行结果确定下一个要执行的告警处理任务流程的子流程或指令,或者,是否需要继续执行告警处理任务流程的下一子流程或指令。

步骤306、告警处理任务流程执行完毕后,集中控制平台自动将告警处理任务流程执行结果通过短信、电话等通信方式通知用户。

图4为本发明实施例提供的生成告警处理任务流程的方法的流程图;如图4所示,所述方法包括:

步骤401、接收到监控系统发送的告警消息后,解析所述告警消息获取所述告警消息中携带的第一资源的标识,根据第一资源的标识,获取与第一资源存在资源关系的第二资源的标识;

步骤402、在确定存在与第一资源存在资源关系的第二资源时,开始创建告警处理任务流程;

步骤403、创建检查第一资源健康状态子流程,将检查第一资源健康状态的指令加入告警处理任务流程;

步骤404、在第一资源存在对应的故障处理指令时,创建第一资源对应的处理子流程及指令,将第一资源对应的故障处理指令加入告警处理任务流程;

步骤405、判断第一资源是否与多个资源同时存在资源关系;

步骤406、在确定第一资源并未与多个资源同时存在资源关系时,根据第二资源对应的故障处理指令创建第二资源对应的处理子流程及指令,将第二资源对应的故障处理指令加入告警处理任务流程;转到步骤410;

步骤407、在确定第一资源与多个资源同时存在资源关系时,根据所述多个资源关系创建与分支环节,加入告警处理任务流程;

步骤408、遍历所述多个资源关系,分别创建每个第二资源对应的处理子流程及指令,并加入告警处理任务流程;

步骤409、与汇聚:根据步骤408的指令执行结果进行分析判断,若通过该些指令的执行结果未确定故障原因,则转到步骤410;

步骤410、判断第一资源是否存在间接的资源关系;

步骤411、若确定存在与第一资源存在间接资源关系的资源时,遍历间接资源关系,并转到步骤403;否则,在确定不存在与第一资源存在间接资源关系的资源时,完成告警处理任务流程的生成过程。这里,在生成告警处理任务流程的过程中,根据资源关系同时确定第一资源对应的处理子流程及指令与第二资源对应的处理子流程及指令的执行顺序,执行顺序与上述的各个方法步骤对应。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1