一种运维告警处理方法和装置的制作方法

文档序号:7768864阅读:549来源:国知局
专利名称:一种运维告警处理方法和装置的制作方法
技术领域
本发明涉及IT运维领域,特别是运维告警处理方法。
背景技术
随着信息化建设的深入发展,IT系统日益成为核心业务处理的关键基础设施;为 了保证网络、服务器、数据库等IT资源的正常运行,需要对其进行维护;当系统出现异常时 能够及时产生告警并通知到运维人员。运维人员能够根据告警对异常进行定位,诊断,并完 成相应的维护操作。告警的准确性、实时性和有效性对保证系统故障的及时发现、预警和解 决起着至关重要的作用。

发明内容
本发明提供了一种IT运维告警处理方法,其主要步骤为1)采集点对系统运行状 态和性能指标进行采集;2)采集点将数据上传到处理服务器;3)处理服务器按照预先定义 的规则判断是否存在异常情况;如果有异常,则产生异常;4)对新产生的异常,进行相关性 分析,确定是否产生新告警;5)对新产生的告警,执行短信发送,报警灯驱动,即时消息发送 等操作。本发明还提供了一种根据上述方法制作的装置,如图1所示。该装置包括3部分 采集单元,告警处理单元和告警发送单元。其中采集单元负责采集IT基础设施的状态和性 能数据。告警处理单元包括四个子单元异常判断,负责按照预定义的规则对数据进行分 析,确定是否有异常发生;相关性分析,将新的异常和已经发现的事件进行分析,判断该异 常是否应该触发一个新的事件;信息扩充,原始的告警里面可能只有一些基础信息,通过 扩充后,内容变得更加丰富,运维人员可以更有效的理解告警并做出最佳判断。采集单元采集的数据包括状态数据和性能数据,它可以支持多种采集方式,包括 SNMP, Telnet/SSH, JDBC, JMX等,涵盖网络、服务器、数据库、中间件等多种IT基础设施。在IT运维中,如何自动判断系统运行异常是非常重要的。有些故障如系统无法访 问,这会导致业务无法处理,用户会报告投诉;但有些潜在的问题,用户感受不到,但可以根 据相关知识做成判断,比如,某链路的流量晚上正常状态是1M以下,如果超出1M甚至更高, 就可能存在异常。异常判断单元根据规则识别系统运行中存在的问题。在规则中,采集单 元采集到的数据都称为“值”,每个值都包含有所属设备、模块、指标、采集时间等属性。规则 是计算值是否满足条件的表达式,表达式由宏,标识符和运算符组成。异常判断单元对接收 到的每个值进行宏替换后进行计算,如果计算后的值为真,则表示出现异常。表达式的灵活 性使得这种判断方法能适应多种不同类型设备、指标和场景的需要。原始告警信息中只包括告警来源,发生时间,内容等属性。由于业务系统日益复 杂,为了帮助运维人员更好的掌握告警可能产生的风险或问题,对业务的影响等,信息扩充 单元实现对告警信息的属性进行扩充。在IT系统中,网络、服务器、数据库等资源之间是相互联系的。当其中某个组件发生异常后,和它相关联的组件也会产生同样的异常报告,从而产生一系列的告警。如何通过 分析相关性在这一系列告警之间找到真正的故障原因和位置,是保证告警有效性的一个关 键。当告警发生后,需要及时的将告警通知需要了解的运维人员。适应不同的紧急程 度,告警通知单元提供短信、邮件、灯光、消息等多种告警方式。短信、灯光、消息等适用于紧 急、对实时性要求高的告警,邮件适用于一般的告警。此外,根据本发明的实施例,本发明的采集点由机器人和多个探针组成;机器人负 责调度探针执行采集动作;
此外,根据本发明的实施例,探针支持的采集方式包括SNMP,Telnet, SSH,JDBC, JMX寸。此外,根据本发明的实施例,采集点可以分布安装在多个地方,但数据是集中存放 的。此外,根据本发明的实施例,采集探针分为SNMP探针,JDBC探针,Telnet/SSH探 针,JMX探针等。此外,根据本发明的实施例,采集单元和告警处理单元之间通过数据总线和消息 总线连接;数据总线用于上报数据,消息总线用于下发采集命令;
此外,根据本发明的实施例,一个告警处理单元可以接收多个采集单元的数据; 此外,根据本发明的实施例,当出现传输故障时,采集单元可以尝试一个或多个备份告 警处理单元;
此外,根据本发明的实施例,当数据无法传输时,采集单元可以保存最新一段时间的数 据,直到传输恢复。此外,根据本发明的实施例,当告警处理单元发现需要重新采集时,可以通过消息 总线通知采集单元重新采集。此外,根据本发明的实施例,异常判断是通过条件表达式来计算的,条件表达式通 过宏定义引用指标值、环境值等;
此外,根据本发明的实施例,信息扩充通过条件表达式标识告警集合,通过值表达式定 义扩充的字段值;
此外,根据本发明的实施例,相关性分析通过规则定义告警之间的资源相关性、时间相 关性和业务相关性;
此外,根据本发明的实施例,相关性分析实现屏蔽、压缩、升级、关联操作。此外,根据本发明的实施例,告警通知单元和告警处理单元通过TCP协议传输告 警;告警处理单元可以把告警推送到多个告警通知单元。此外,根据本发明的实施例,告警通知单元通过串口电平高低控制报警灯的开关 闪烁和颜色。此外,根据本发明的实施例,告警通知单元通过串口控制短信猫发送告警。


本发明将通过例子并参照附图的方式说明,其中 图1是告警处理方法示意图。
图2是采集机工作示意图。图3是采集机工作流程图。图4是告警信息扩充流程图。图5是相关性分析流程图。
具体实施例方式本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥 的特征和/或步骤以外,均可以以任何方式组合。本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙 述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只 是一系列等效或类似特征中的一个例子而已。下面将结合附图对本发明做进一步的说明
如图1,本发明装置包括采集单元,告警处理单元,告警通知单元。采集单元包括机器人 和SNMP、Telnet等各种探针。根据设备支持的不同技术接口,探针通过不同的技术手段收 集设备的运行状态。采集单元将采集到的数据通过数据总线传递给告警处理单元。同时, 采集单元也接收来自告警处理单元的指令,当出现采集数据错误时进行重采、补采等操作。 采集单元和告警处理单元之间的连接支持备份。即当采集单元发现当前使用的告警处理单 元无法通信时,可以自动连接备份的告警处理单元。如果所有的告警处理单元都无法连接, 告警采集单元可保存最近一段时间的数据,直到剩余磁盘空间小于指定大小。当剩余空间 不足时,告警采集单元会丢弃最“旧”的数据;通过上述方法可最大可能保证告警的及时性 和准确性。告警处理单元接收到原始数据后,首先根据预置的异常判断规则分析是否出现 了异常。异常可以是IT资源或业务系统的某个具体技术指标,可以是用户体验的某个度 量;也可能是多个指标综合运算后得出的判断。为了能够适应不同设备、不同业务系统的复 杂性,规则通过异常表达式来描述异常。用户可以根据自己对IT系统的理解,将异常情况 用表达式进行描述。由于表达式的宏替换、运算等可能比较耗时,异常判断模块会记录表达 式处理的性能并定期进行分析,籍此优化调整表达式处理的并发线程数。为了增加告警的可读性,帮助运维人员更准确的分析告警,信息扩充单元对告警 字段进行扩充。本装置中,告警信息预留了扩充字段。如图4所示,系统首先定义一个条件 表达式,确定满足条件的告警集合,然后再定义一个或多个扩充字段的值表达式。对每条告 警,系统判断其属性是否满足条件表达式,如果满足,则将告警的原始属性、环境信息、业务 信息、设备维护信息等宏替换代入值表达式,计算出扩充字段的值。对一条新产生的告警,相关性分析单元将其与历史告警进行比较分析,以确定这 些事件之间是否存在相关性,并确定根源告警和衍生告警。这种相关性包括时间相关性、资 源相关性和业务相关性。如图5所示,相关性处理包括下列步骤1)用户建立相关性规则, 并确定规则的优先级;系统提供的规则能够描述时间、资源和业务等相关性;2)系统读取 预置规则;3)当新告警产生后,系统根据告警的属性和相关性规则计算出一个告警集合,如 果告警集合包含不止一个元素,则该告警和其他告警存在相关性,进一步分析根源告警和衍生告警(默认是先产生的告警为根源告警);4)对具有相关性的告警,根据规则预定义的 动作执行屏蔽、压缩、升级等操作。5)具有相关性的告警,在显示装置上可分组显示。告警经过扩充,相关性分析后,需要通知相关的运维人员,包括通过查询,短信,邮 件,灯光等。如图1所示,本装置中,告警通知装置与告警处理装置之间通过TCP进行通信, 告警处理装置将告警推送给告警通知装置。告警通知装置通过串口和短信猫、报警灯等连 接。装置通过串口协议与短信猫通信并发送短信。装置通过高低电平控制报警灯的开关。本发明并不局限于前述的具体实施方式
。本发明扩展到任何在本说明书中披露 的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。
权利要求
一种运维告警处理方法,其特征在于该方法包括以下步骤:1)告警采集,机器人调度各种探针收集IT资源运行健康状况;2)告警处理,通过异常判断,信息扩充,相关性分析,保存等过程产生告警,扩充字段,屏蔽无效告警等;3)告警通知通过短信、报警灯、邮件、消息等方式将告警通知相关运维人员。
2.根据权利要求1所述的运维告警处理方法,其特征在于所述相关性分析的过程主 要包括下列步骤1)用户建立相关性规则;2)系统读取预置规则;3)当新告警产生后,系 统根据告警的属性和相关性规则计算出一个告警集合,如果告警集合包含不止一个元素, 则该告警和其他告警存在相关性,进一步分析根源告警和衍生告警;4)对具有相关性的告 警,根据规则预定义的动作执行屏蔽、压缩、升级等操作。
3.一种应用如权利要求1或2所述的运维告警处理方法的装置,其特征在于包括告 警采集单元、告警处理单元和告警通知单元。
4.根据权利要求3所述的装置,其特征在于采集单元包括采集机器人和采集探针两 部分;采集探针分为SNMP探针,JDBC探针,Telnet/SSH探针,JMX探针等;采集机器人负责 调度采集探针采集不同设备的运行指标。
5.根据权利要求3所述的装置,其特征在于采集单元和告警处理单元之间通过数据 总线和消息总线连接;数据总线用于上报数据,消息总线用于下发采集命令;一个告警处 理单元可以接收多个采集单元的数据。
6.根据权利要求3所述的装置,其特征在于当与主告警处理单元出现传输故障时,采 集单元可以自动连接一个或多个备份告警处理单元;当所有告警处理单元均无法传输成功 时,采集单元可以保存最新一段时间的数据,直到剩余磁盘空间小于指定大小;当剩余空间 不足时,告警采集单元会丢弃最“旧”的数据;传输恢复后,保存的数据会自动上传。
7.根据权利要求3所述的装置,其特征在于当告警处理单元发现需要重新采集时,可 以通过消息总线通知采集单元重新采集。
8.根据权利要求3所述的装置,其特征在于异常判断是通过条件表达式来计算的,条 件表达式由运算符和符号组成,可通过宏定义引用指标值、属性值、环境值,其运算结果是 逻辑值真或假;异常判断单元对接收到的每个值进行宏替换后进行计算,如果计算后的值 为真,则表示出现异常。
9.根据权利要求3所述的装置,其特征在于信息扩充通过条件表达式标识告警集合, 通过值表达式定义扩充的字段值,值表达式由运算符和符号组成,可通过宏定义引用指标 值、属性值、环境值,其运算结果是数值、字符串或逻辑值。
10.根据权利要求3所述的装置,其特征在于告警通知单元和告警处理单元通过TCP 协议传输告警;其中,所述告警处理单元把告警信息推送到多个告警通知单元;通知单元 通过串口电平高低控制报警灯的开关闪烁和颜色,或者通过串口控制短信猫发送告警。
全文摘要
本发明公开了一种运维告警处理方法,该方法包括以下步骤(1)告警采集,机器人调度各种探针收集IT资源运行健康状况;(2)告警处理,通过异常判断,信息扩充,相关性分析,保存等过程产生告警,扩充字段,屏蔽无效告警等。(3)告警通知通过短信、报警灯、邮件、消息等方式将告警通知相关运维人员。本发明方法及其相关装置提高了运维告警的准确性、有效性和及时性。
文档编号H04L12/24GK101989931SQ20101058971
公开日2011年3月23日 申请日期2010年12月15日 优先权日2010年12月15日
发明者廖昕, 杨涛, 陈松 申请人:成都勤智数码科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1