告警处理方法、设备及可读存储介质与流程

文档序号:14156972阅读:228来源:国知局

本发明涉及it运维技术领域,尤其涉及一种告警处理方法、设备及可读存储介质。



背景技术:

传统的告警处理流程需要运维人员的人工介入,比如运维人员收到告警信息后,一般会进行手动检索,查找相对应的告警处理方案。在确定告警处理方案后,运维人员还需上机输入相关指令,从而最终完成告警处理。而如果告警较多且频繁的话,这将大大加重运维人员的工作压力,同时手动处理容易发生误操作,进而大大降低了运维效率。



技术实现要素:

本发明的主要目的在于提供一种告警处理方法、设备及可读存储介质,旨在解决如何实现告警自动化处理的技术问题。

为实现上述目的,本发明提供一种告警处理方法,所述告警处理方法包括以下步骤:

获取告警库中的告警内容;

搜索告警案例库中与所述告警内容匹配的告警案例,其中,所述告警案例中包含有告警模板、信息收集方案以及告警处理方案;

基于所述告警模板,从所述告警内容中提取告警参数;

执行所述信息收集方案,获得告警相关信息,以供运维人员基于所述告警相关信息,对所述告警处理方案进行人工审核;

当人工审核通过时,将所述告警参数传入所述告警处理方案并执行。

可选地,在获取告警库中的告警内容之前,所述告警处理方法还包括:

从外部告警源中获取告警信息并解析,得到告警内容,并将告警内容存入告警库中。

可选地,所述搜索告警案例库中与所述告警内容匹配的告警案例包括:

以所述告警内容为搜索条件,通过搜索引擎搜索告警案例库,得到满足第一预置匹配程度条件的第一候选告警案例集;

从第一候选告警案例集中筛选出满足第二预置匹配程度条件的第二候选告警案例集;

依次从第二候选告警案例集的每一候选告警案例中提取预置的多个关键字,并与所述告警内容进行匹配,得到匹配结果;

将所述匹配结果中,所有关键字匹配且匹配程度最高的候选告警案例作为最终选定的告警案例。

可选地,所述信息收集方案包括多个处理步骤,且每一个处理步骤对应一个检查执行点配置;所述执行所述信息收集方案,获得告警相关信息包括:

基于所述信息收集方案中的检查执行点配置,调用对应的预置检查执行点执行信息收集处理,获得告警相关信息,并将信息收集处理执行情况存入告警库中,其中,所述检查执行点为自动化执行脚本。

可选地,所述告警处理方法还包括:

在信息收集完成后,向预置终端发送消息,以供通知运维人员进行人工审核;

当检测到所述告警相关信息的查看请求时,在审核页面中显示所述告警相关信息,以供运维人员基于所述告警相关信息,对所述告警处理方案进行人工审核。

可选地,所述告警处理方案包括多个处理步骤,且每一个处理步骤对应一个处理执行点配置;所述将所述告警参数传入所述告警处理方案并执行包括:

基于所述告警处理方案中的处理执行点配置,调用对应的预置处理执行点,将所述告警参数传入所述处理执行点;

执行所述处理执行点以处理告警,并将告警处理执行情况存入告警库中,其中,所述处理执行点为自动化执行脚本。

可选地,所述告警处理方法还包括:

当接收到告警处理情况查看请求时,从告警库中获取相应的信息收集处理执行情况和/或告警处理执行情况并返回。

可选地,所述告警处理方法还包括以下操作中的一项或多项:

显示告警案例维护页面,并将页面信息提交至告警案例库中,以供新增和/或修改告警案例;

显示执行点维护页面,并将页面信息提交至告警案例库中,以供新增和/或修改执行点,其中,所述执行点为检查执行点或处理执行点。

进一步地,为实现上述目的,本发明还提供一种告警处理设备,所述告警处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的告警处理程序,所述告警处理程序被所述处理器执行时实现如上述任一项所述的告警处理方法的步骤。

进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有告警处理程序,所述告警处理程序被处理器执行时实现如上述任一项所述的告警处理方法的步骤。

本发明,采用软件处理方式完成告警处理的各个流程,包括:从告警库中获取告警内容;然后,以告警内容为检索条件,从告警案例库中检索匹配的告警案例,告警案例中设有告警模板、信息收集方案以及告警处理方案;基于告警模板可提取告警内容中的告警参数、执行信息收集方案可获得告警相关信息,进而提供给运维人员对告警处理方案进行人工审核;若审核通过,则将提取的告警参数传入告警处理方案并执行,进而实现了告警流程的自动化处理,降低了运维人员工作量,同时也避免了人工操作上的失误,提高了运维效率。

附图说明

图1为本发明实施例方案涉及的设备硬件运行环境的结构示意图;

图2为本发明告警处理方法一实施例的流程示意图;

图3为图2中步骤s20一实施例的细化流程示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

如图1所示,图1是本发明实施例方案涉及的设备硬件运行环境的结构示意图。

本发明实施例告警处理设备可以是pc机、服务器,也可以是平板电脑、便携计算机等设备。

如图1所示,该告警处理设备可以包括:处理器1001,例如cpu,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

本领域技术人员可以理解,图1中示出的告警处理设备的硬件结构并不构成对告警处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序,比如告警处理程序等。其中,操作系统是管理和控制告警处理设备与软件资源的程序,支持网络通信模块、用户接口模块、告警处理程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1002;用户接口模块用于管理和控制用户接口1003。

在图1所示的告警处理设备硬件结构中,网络接口1004主要用于连接系统后台,与系统后台进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;告警处理设备通过处理器1001调用存储器1005中存储的告警处理程序,以执行以下操作:

获取告警库中的告警内容;

搜索告警案例库中与所述告警内容匹配的告警案例,其中,所述告警案例中包含有告警模板、信息收集方案以及告警处理方案;

基于所述告警模板,从所述告警内容中提取告警参数;

执行所述信息收集方案,获得告警相关信息,以供运维人员基于所述告警相关信息,对所述告警处理方案进行人工审核;

当人工审核通过时,将所述告警参数传入所述告警处理方案并执行。

进一步地,所述告警处理设备通过处理器1001调用存储器1005中存储的告警处理程序,以执行以下操作:

从外部告警源中获取告警信息并解析,得到告警内容,并将告警内容存入告警库中。

进一步地,所述告警处理设备通过处理器1001调用存储器1005中存储的告警处理程序,以执行以下操作:

以所述告警内容为搜索条件,通过搜索引擎搜索告警案例库,得到满足第一预置匹配程度条件的第一候选告警案例集;

从第一候选告警案例集中筛选出满足第二预置匹配程度条件的第二候选告警案例集;

依次从第二候选告警案例集的每一候选告警案例中提取预置的多个关键字,并与所述告警内容进行匹配,得到匹配结果;

将所述匹配结果中,所有关键字匹配且匹配程度最高的候选告警案例作为最终选定的告警案例。

进一步地,所述告警处理设备通过处理器1001调用存储器1005中存储的告警处理程序,以执行以下操作:

基于所述信息收集方案中的检查执行点配置,调用对应的预置检查执行点执行信息收集处理,获得告警相关信息,并将信息收集处理执行情况存入告警库中,其中,所述检查执行点为自动化执行脚本。

进一步地,所述告警处理设备通过处理器1001调用存储器1005中存储的告警处理程序,以执行以下操作:

在信息收集完成后,向预置终端发送消息,以供通知运维人员进行人工审核;

当检测到所述告警相关信息的查看请求时,在审核页面中显示所述告警相关信息,以供运维人员基于所述告警相关信息,对所述告警处理方案进行人工审核。

进一步地,所述告警处理设备通过处理器1001调用存储器1005中存储的告警处理程序,以执行以下操作:

基于所述告警处理方案中的处理执行点配置,调用对应的预置处理执行点,将所述告警参数传入所述处理执行点;

执行所述处理执行点以处理告警,并将告警处理执行情况存入告警库中,其中,所述处理执行点为自动化执行脚本。

进一步地,所述告警处理设备通过处理器1001调用存储器1005中存储的告警处理程序,以执行以下操作:

当接收到告警处理情况查看请求时,从告警库中获取相应的信息收集处理执行情况和/或告警处理执行情况并返回。

进一步地,所述告警处理设备通过处理器1001调用存储器1005中存储的告警处理程序,以执行以下操作:

显示告警案例维护页面,并将页面信息提交至告警案例库中,以供新增和/或修改告警案例;

显示执行点维护页面,并将页面信息提交至告警案例库中,以供新增和/或修改执行点,其中,所述执行点为检查执行点或处理执行点。

基于上述告警处理设备硬件结构,提出本发明告警处理方法的各个实施例。

参照图2,图2为本发明告警处理方法一实施例的流程示意图。本实施例中,告警处理方法包括以下步骤:

步骤s10,获取告警库中的告警内容;

步骤s20,搜索告警案例库中与告警内容匹配的告警案例,其中,告警案例中包含有告警模板、信息收集方案以及告警处理方案;

本实施例中,告警处理设备中设有告警库与告警案例库,告警库主要用于存放告警相关信息的数据库,包括告警内容、告警日期、告警处理状态、信息收集结果、告警处理结果等信息,而告警案例库主要用于存放告警案例。

本实施例中,告警内容来源于外部告警源,比如各种软件系统,而告警案例为开发人员基于已知的告警内容所形成的告警解决方案,主要包括告警模板、信息收集方案以及告警处理方案。需要说明的是,本发明不限定告警内容与告警案例的具体形式,具体根据实际需要进行设置。

可选的,在获取告警库中的告警内容之前,告警处理设备从外部告警源中获取告警信息并解析,得到告警内容,并将告警内容存入告警库中。外部告警源具体采用json格式返回告警内容,因而在获取到json格式的告警信息后,需要先解析告警信息,得到告警内容,然后再将告警内容存入告警库,进而可实现告警内容的缓存以及异步处理,提升告警处理效率。

本实施例对于告警内容与告警案例的匹配方式不限。例如,通过搜索引擎检索与告警内容匹配的告警案例;或者在告警案例库中,对每一个告警案例设置一个关键字,该关键字与特定告警内容对应,比如,外部告警源上报的告警信息中携带有告警类型id(配置为告警案例的关键字),则通过告警类型id即可精确匹配到对应的告警案例。

可选的,通过告警模板实现告警内容与告警案例之间的检索匹配。例如,告警模板设置为:xx系统ip:{$ip}发生进程关闭告警,而告警内容为:xx系统ip:1.1.1.1发生进程关闭告警,则告警模板与告警内容匹配,进而可确定该告警模板所在告警案例即为最匹配案例。

步骤s30,基于告警模板,从告警内容中提取告警参数;

本实施例中,告警模板基于告警内容进行配置,进而将同一类型告警内容中的差异点抽象成通用参数,也即告警参数。例如,告警模板设置为:xx系统ip:{$ip}发生进程关闭告警,而告警内容为:xx系统ip:1.1.1.1发生进程关闭告警,则通过比对分析即可确定二者的差异为ip=1.1.1.1,也即告警内容中的告警参数。

步骤s40,执行信息收集方案,获得告警相关信息,以供运维人员基于告警相关信息,对告警处理方案进行人工审核;

本实施例中,考虑到目前智能化水平的限制,为避免直接执行告警案例中的告警处理方案而可能存在的告警处理失败所导致的更为严重的后果,因而在正式处理告警之前,先由运维人员审核一下告警处理方案,具体基于告警相关信息,决策是否可以按照匹配到的告警案例中的告警处理方案直接执行,如果运维人员审核后认为该告警处理方案可以执行,则提交审核意见,也即人工审核通过。

本实施例中,信息收集方案具体用于收集告警相关信息,例如,告警内容为xx系统ip:1.1.1.1发生进程关闭告警,则匹配到的告警案例中的信息收集方案至少包括检查磁盘容量与内存状态、检查进程是否真的关闭等内容,则执行该方案后所收集的告警相关信息至少包括磁盘容量、内存状态、进程运行状态等信息。

可选的,在信息收集完成后,告警处理设备向预置终端发送消息,以供通知运维人员进行人工审核;比如向运维人员的手机、电脑等终端发送通知消息,比如邮件、微信、短信息等。运维人员收到审核通知后,登录告警处理设备,以查看收集到的告警相关信息,当告警处理设备检测到告警相关信息的查看请求时,在审核页面中显示告警相关信息,以供运维人员基于该告警相关信息,对告警处理方案进行人工审核。

步骤s50,当人工审核通过时,将告警参数传入告警处理方案并执行。

当运维人员同意采用匹配到的告警案例中的告警处理方案处理告警时,比如运维人员在审核页面上点击审核通过按钮,告警处理设备将告警内容中的告警参数传入告警处理方案中并执行,从而实现对告警的自动处理。

本实施例采用软件处理方式完成告警处理的各个流程,包括:从告警库中获取告警内容;然后,以告警内容为检索条件,从告警案例库中检索匹配的告警案例,告警案例中设有告警模板、信息收集方案以及告警处理方案;基于告警模板可提取告警内容中的告警参数、执行信息收集方案可获得告警相关信息,进而提供给运维人员对告警处理方案进行人工审核;若审核通过,则将提取的告警参数传入告警处理方案并执行,进而实现了告警流程的自动化处理,降低了运维人员工作量,同时也避免了人工操作上的失误,提高了运维效率。

参照图3,图3为图2中步骤s20一实施例的细化流程示意图。基于上述实施例,本实施例中,上述步骤s20进一步包括:

步骤s201,以告警内容为搜索条件,通过搜索引擎搜索告警案例库,得到满足第一预置匹配程度条件的第一候选告警案例集;

本实施例中,采用搜索引擎从告警案例库中搜索与告警内容匹配的告警案例。例如,es(elasticsearch)搜索引擎。

告警处理设备收到告警后,调用搜索引擎搜索告警案例。es会对告警内容与告警案例的匹配程度进行评分,并从大到小排序,进而得到多个排序的第一候选告警案例集,并以列表形式返回给告警处理设备,其中,评分最高的告警案例与告警内容的匹配程度最高。

由于机器匹配必然存在错误率的问题,因此,本实施例中,告警处理设备将继续进行二次匹配,以增加告警案例与告警内容匹配的准确度。

步骤s202,从第一候选告警案例集中筛选出满足第二预置匹配程度条件的第二候选告警案例集;

通常搜索引擎是对告警案例库中的所有案例进行匹配排序,显然,第一候选告警案例集中存在大量与告警内容不对应的告警案例,这些告警案例明显不能用于告警处理。因此,告警处理设备在进行二次匹配之前,先筛选掉分数太低的告警案例。

例如,设置评分阈值,将第一候选告警案例集中大于该评分阈值的告警案例作为进行二次匹配的候选告警案例集,也即第二候选告警案例集。

步骤s203,依次从第二候选告警案例集的每一候选告警案例中提取预置的多个关键字,并与告警内容进行匹配,得到匹配结果;

步骤s204,将匹配结果中,所有关键字匹配且匹配程度最高的候选告警案例作为最终选定的告警案例。

本实施例具体通过必需关键字来减少机器匹配错误率,例如,运维人员预先在告警案例中指定几个非常特殊的字符串作为必需关键字,即某几个关键字一定必需出现在告警内容中,才能命中匹配的告警案例,进而保证告警案例匹配的精确性,避免使用错误的案例处理告警。

进一步可选的,在本发明告警处理方法一实施例中,上述实施例中步骤s40:执行信息收集方案,获得告警相关信息具体包括:

基于信息收集方案中的检查执行点配置,调用对应的预置检查执行点执行信息收集处理,获得告警相关信息,并将信息收集处理执行情况存入告警库中。

本实施例中,信息收集方案包括多个处理步骤,且每一个处理步骤对应一个检查执行点配置,其中,检查执行点为自动化执行脚本,一种可执行程序。同一个自动化执行脚本可以被多个告警案例所复用。

本实施例中,告警处理设备在执行信息收集方案时,基于方案中的检查执行点配置,调用对应的预置检查执行点执行信息收集处理,从而获得告警相关信息,并将信息收集处理执行情况存入告警库中,以便运维人员能够随时查看告警处理情况。

本实施例对于检查执行点的设置不限,具体根据实际需要进行设置。

可选的,当接收到告警处理情况查看请求时,告警处理设备从告警库中获取相应的信息收集处理执行情况并返回,以供在页面中进行显示。运维人员可以查看告警处理情况,根据需要还可以进行方案编辑、通过/拒绝审核等操作。

进一步可选的,在本发明告警处理方法另一实施例中,上述实施例中步骤s50:将告警参数传入告警处理方案并执行具体包括:

基于告警处理方案中的处理执行点配置,调用对应的预置处理执行点,将告警参数传入处理执行点;

执行处理执行点以处理告警,并将告警处理执行情况存入告警库中。

本实施例中,告警处理方案包括多个处理步骤,且每一个处理步骤对应一个处理执行点配置,其中,处理执行点为自动化执行脚本,一种可执行程序。同一个自动化执行脚本可以被多个告警案例所复用。

本实施例中,告警处理设备在人工审核通过后,基于方案中的处理执行点配置,调用对应的预置处理执行点,并将告警参数传入处理执行点,从而在处理执行点运行过程中,能够针对告警的特征来处理告警,实现告警的自动化处理,并将告警处理执行情况存入告警库中,以便运维人员能够随时查看告警处理情况。

本实施例对于处理执行点的设置不限,具体根据实际需要进行设置。

可选的,当接收到告警处理情况查看请求时,告警处理设备从告警库中获取相应的告警处理执行情况并返回,以供在页面中进行显示。运维人员可以查看告警处理情况。

进一步可选的,在本发明告警处理方法一实施例中,告警处理方法还包括以下操作中的一项或多项:

(1)显示告警案例维护页面,并将页面信息提交至告警案例库中,以供新增和/或修改告警案例;

(2)显示执行点维护页面,并将页面信息提交至告警案例库中,以供新增和/或修改执行点,其中,执行点为检查执行点或处理执行点。

本实施例中,运维人员可以新增或修改告警案例库,告警处理设备提供相应的页面给运维人员进行维护,主要可以新增或修改告警模版、告警必需关键字、信息收集方案或告警处理方案包含的处理步骤及执行点等。

此外,运维人员还可以新增或修改执行点,告警处理设备提供相应的页面给运维人员进行维护。一个信息收集方案或告警处理方案由多个执行点对象组成。

本发明还提供一种计算机可读存储介质。

本发明的计算机可读存储介质上存储有告警处理程序,该告警处理程序被处理器执行时实现上述告警处理方法任一实施例中的步骤。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本发明的保护之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1