一种告警的分析方法、装置及系统的制作方法

文档序号:7743207阅读:207来源:国知局
专利名称:一种告警的分析方法、装置及系统的制作方法
技术领域
本发明涉及通信技术领域,更具体的说,涉及一种告警的分析方法、装置及系统。
背景技术
故障管理作为现代通信网络管理中的一个重要组成部分,能够保证网络的正常运行。由于通信网络的快速发展,使网络结构变得越来越复杂,网络管理员面对通信网络中产生的大量告警信息,往往很难从中找出故障的真正原因,从而无法快速实施故障修复和障碍排除。为了更好的解决故障诊断和定位问题,需要对所接收的告警信息进行告警相关性分析,找到触发告警的根本原因,也叫做根源告警,以便能更好地完成故障管理的任务。根源告警是在一系列告警中根本故障产生的告警;比如,单板的端口硬件故障,导致了端口硬件告警,端口流量过低告警,业务通讯终端告警等一系列的告警。但其根本原因是端口硬件故障,所以端口硬件告警为根源告警,只要解决了这个根源告警,其他的告警自然就会消失,告警相关性分析就是寻找这个根源告警的方法。现有技术中可以基于模型推理来实现告警相关性分析,在光网络底层标准网络的网管系统中,一般通过。因为光网络构建在统一的ITU-T(ITUTelecommunication Standardization Sector,国际电信联盟远程通信标准化组)规范,模型非常标准,从硬件设备到物理链路和逻辑链路,都有严格的层次关系或链接关系。比如在SDH (Synchronous Digital Hierarchy,同步数字体系)网络中,链路从底层到高层分为物理链路、RS链路和 MS链路;当TM-ACTermination Multiplexer,终端复用器)的光口损害,会导致的告警包括REG(中继)设备在物理层R-LOS(接收端信号丢失)告警,REG设备在RS层R-LOS告警,TM-B设备在MS层R-LOS告警以及TM-A设备光口损坏硬件告警。根据SDH严格模型规范和明确的Topo关系,可以方便确定这些告警中的根源告警是“TM-A设备光口损坏硬件告警”,这样网管系统就可以及时对根源告警进行故障处理或修复。现有技术中还可以采用自定义规则的方式来实现告警相关性分析,例如基于物理相关性,类型相关性以及时间相关性对告警规则进行自定义,定义同一端口上在10秒钟内发生的告警类型A和告警类型B相关,B为A的根源告警。这种方式可以进行规则的扩充,满足简单的告警相关性要求。在实现本发明过程中,发明人发现现有技术中至少存在如下问题现有的告警相关性手段在应用过程中,通过统计分析的方法无法从大量的低级别告警事件中发现系统严重故障。例如在IPTV(交互式网络电视)的某个局点中,存在大量的主机软件模块(PC krver),这些模块之间业务关系复杂,当一个核心模块故障时,与其相关的模块均会上报告警,管理员会被淹没在短时间内产生的大量重复告警导致的告警风暴中。由于这些模块之间的复杂关系,不能随便停止这些模块的告警通知,所以无法及时的找到根本原因来进行故障处理,从而严重的影响网络正常业务的运行。

发明内容
4
本发明的实施例提供了一种告警的分析方法、装置及系统,通过根据预先设置的告警分析表对网管系统的告警处理信息进行再次分析,能够及时确定系统中故障的根源告警,从而确保了通信网络的正常运行。本发明实施例的技术方案如下所述本发明实施例提供了一种告警的分析方法,技术方案包括从数据库中获取网管系统针对网络元件告警进行处理后的告警处理信息;根据预定的告警分析表对所述告警处理信息进行分析,确定根源告警。本发明实施例提供了一种告警分析装置,技术方案包括第一信息获取模块,用于从数据库中获取网管系统针对网络元件告警进行处理后的告警处理信息;第一信息处理模块,用于根据预定的告警分析表对所述告警处理信息进行分析, 确定根源告警。本发明实施例提供了一种告警信息分析系统,技术方案包括网管系统,用于针对网络元件告警进行处理,并将处理后的告警处理信息保存在数据库中;还用于接收告警分析装置确定的根源告警;告警分析装置,用于从数据库中获取所述网管系统保存的针对网络元件告警进行处理后的告警处理信息,根据预定的告警分析表对所述告警处理信息进行分析后,确定根源告警,并向网管系统上报。由上述本发明的实施例提供的技术方案可以看出,采用本发明实施例基于统计分析的告警二次相关性分析方案,对获取的网管系统对网络元件上报的告警进行处理的告警处理信息进行统计分析,能够及时确定整个网络群发性普通告警的根本故障原因,以使网管系统可以及时对该故障原因进行处理,保证网络的正常运行。


为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例告警的分析方法流程图;图2为本发明实施例告警分析装置的结构示意图;图3为本发明一个实施例告警分析装置的具体结构示意图;图4为本发明实施例告警分析系统的结构示意图;图5为本发明实施例告警分析方法的应用场景图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
5
本发明实施例一种告警的分析方法、装置及系统,在网管系统中通过告警分析表定期或实时对告警数据库中的网管系统针对网络元件告警进行处理后的告警处理信息进行统计分析,从而在批量的低级别告警事件中,及时发现系统层面的根源告警,并将确定的根源告警上报给告警处理装置,以使网管系统能够及时对与根源告警相关的告警事件进行处理,保证网络的正常运行。本发明实施例中并未对现有的告警处理逻辑进行改变,而是基于现有告警数据库中告警处理数据的基础上提出的一种告警的分析方式,能够解决现有技术中不能从批量低级别事件中,及时发现系统层面严重故障的问题。为了便于对本发明实施例记载的技术方案的理解,下面结合具体实施方式
进行说明。如图1所示,本发明实施例一种告警的分析方法,可以通过如下技术方案实现步骤101 从数据库中获取网管系统针对网络元件告警进行处理后的告警处理信息;步骤102 根据预定的告警分析表对所述告警处理信息进行分析,确定根源告警。在本发明的一个实施例中,从数据库中获取网管系统针对网络元件告警进行处理后的告警处理信息的过程,具体可以通过如下技术方案实现从数据库中按照告警类型提取所述告警处理信息;所述告警处理信息包括网管系统对网络元件告警处理后的数据和/或告警相关性分析后的数据。具体的说,在网管系统中是由告警处理模块来对网络元件上报的告警进行处理的,网管系统通过告警处理模块对接收到的告警进行分析、展示、转发、或者进行现有的告警相关性分析操作,然后将对网络元件告警处理后的相关数据存储在告警数据库中。为了便于确定相同告警类型下的根源告警,本发明实施例在提取告警处理信息时可以通过实时获取的方式,或定时获取的方式根据告警类型来提取。在本发明的一个实施例中,步骤102具体可以通过如下技术方案实现步骤1021 根据所述告警分析表分析所述网管系统对网络元件告警处理后的数据和/或告警相关性分析后的数据,所述告警分析表中记录了针对不同告警类型制定的根源告警判断条件;步骤1022 根据所述根源告警判断条件从相同告警类型下的告警处理信息中确定根源告警;步骤1023 向网管系统通知所述根源告警,以便网管系统能够及时获知该根源告具体的说,本发明实施例中主要是基于告警分析表从告警数据库中提取出的告警信息中确定系统层面的根源告警。其中,告警分析表是根据告警类型来预先制定的,根源告警是根据根源告警判断条件对提取出的相同类型下的告警处理数据分别判断后确定的。该根源告警判断条件可以根据相同类型告警处理数据的告警次数、频率等因素来制定。在本发明的一个实施例中,告警的分析方法还可以包括通过告警标识区分所述同一告警类型下的网络元件告警以及所述根源告警。具体的说,为了便于网络管理员能够明显的区分新产生的根源告警与原有网络元件产生的普通告警事件,在本发明实施例中,可以通过告警标识来实现,例如可以通过紧急告警标识提示该告警为根源告警,网络管理员可以清楚的区分网络元件告警时间和根源告警,优先对与根源告警相关的告警事件进行处理,从而解决由该根源告警引起的其它相关普通告警。如图2所示,基于上述图1所示的实施例,本发明实施例还提供了一种告警分析装置,可以包括如下功能模块第一信息获取模块21,用于从数据库中获取网管系统针对网络元件告警进行处理后的告警处理信息;第一信息处理模块22,用于根据预定的告警分析表对所述告警处理信息进行分析,确定根源告警。如图3所示,在本发明的一个实施例中,本发明实施例所述装置具体可以包括如下功能模块第一信息获取模块21具体可以包括第一信息提取单元211,用于从数据库中按照告警类型提取所述告警处理信息; 所述告警处理信息包括网管系统对网络元件告警处理后的数据和/或告警相关性分析后的数据;第一信息传送单元212,用于将所述第一信息提取单元获得的所述告警处理信息传送给所述第一信息处理模块。第一信息处理模块22具体可以包括第一信息判断单元221,用于根据所述告警分析表分析所述网管系统对网络元件告警处理后的数据和/或告警相关性分析后的数据,所述告警分析表中记录了针对不同告警类型制定的根源告警判断条件;根源告警确定单元222,用于根据所述根源告警判断条件生成所述根源告警。在本发明的一个实施例中,告警分析装置还可以包括根源告警通知模块M,用于将所述根源告警通知网管系统,以便网管系统获知所述根源告警;根源告警提示模块23,用于通过告警标识区分所述同一告警类型下的网络元件告警事件以及所述根源告警。需要说明的是,本发明实施例是基于上述图1所示的方法实施例获得的,其中各功能模块与图1实施例中各步骤记载的技术方案对应,具体可以参见上述图1实施例中的相关描述。图4所示,基于图1所示的方法实施例,本发明实施例还提出了一种告警信息分析系统,技术方案可以包括网管系统41,用于针对网络元件告警进行处理,并将处理后的告警处理信息保存在数据库中;还用于接收告警分析装置确定的根源告警;告警分析装置42,用于从数据库中获取所述网管系统保存的针对网络元件告警进行处理后的告警处理信息,根据预定的告警分析表对所述告警处理信息进行分析后,确定根源告警,并向网管系统上报。需要说明的是,本发明实施例是基于上述图1所示的方法实施例获得的,其中各功能模块与图1实施例中各步骤记载的技术方案对应,具体可以参见上述图1实施例中的相关描述。为了进一步理解本发明实施例的技术方案,下面结合具体实施例进行说明。实施例一本发明实施例,IPTV系统中的每个数据采集模块(Collection Module, CM负责采集上百个流媒体服务器(Media Server,MS)用量,当MS探测到与CM通讯异常时,均会上报一个与CM通讯异常告警;通常,个别MS上报该告警的原因是网络异常,但当大量MS在短时间内上报与CM通讯异常时,则说明中心CM设备出现故障,如果不及时针对中心CM设备出现故障进行处理,就会影响全网业务的正常运行。下面采用本发明实施例所述方法对上述告警处理过程进行详细说明。如图5所示100、网络元件MS按照告警规则产生“MS和CM通讯异常”告警,并将该告警通知 SNMP (Simple Network Management Protocol,简单网络管理协议)Agent ;其中,上述告警规则是根据网络元件设备的业务需要定义的告警产生异常条件,如温度超过60度、网络连接终端、内存实用率超过70%等;200、SNMP Agent收到MS上报的告警后,会将该告警以SNMP Trap的方式上报给网管;也可以针对不同的系统选择匪1^(]\&111-]\&1吐11^1^叫皿86,人机语言),SOAP (Simple Object Access Protocol,简单对象访问协议),TCP (Transmission Control Protocol,传输控制协议)等协议上报,但通常在多数系统都采用SNMP协议上报该告警;300、网管系统中采用告警处理模块对SNMP Agent上报的告警进行处理;本发明实施例中,在根据告警分析表对网管系统对网络元件告警处理后的信息分析之前,网管系统中的告警处理模块采用现有的告警处理流程对网络元件上报的告警进行处理;告警处理模块在收到网络元件的告警后,对该告警事件进行信息提取、关联、展示、转发、告警相关性的分析,将该告警的相关数据存入告警数据库;其中,上述“展示”是告警处理模块对告警事件进行处理过程中,可以通过声音/光/电的方式提示管理员查看,也可以通过界面浏览的方式提示管理员查看相应告警信息;400、本发明实施例采用告警分析引擎定期(可以设置为1分钟,根据应用场景具体制定)从告警数据库中提取网管系统对网络元件的告警进行处理后的告警处理信息,在本实例中将告警类型为“MS和CM通讯异常”的告警信息提取出来,根据告警分析表进行分析,来确定该告警类型的根源告警;具体的,由于本实施例预先根据不同的告警类型,按照告警相关性来制定了告警分析表,根据根源告警判断条件,可以发现IPTV系统群发性的一些故障,例如某种类型的告警在某一个时段集中爆发,其根源是由于中心设备故障引起的。将本实施例中根源告警判断条件设定为“在1分钟内MS和CM通讯异常告警发生次数超过10次时,生成CM系统异
常告警”;500、通过上述根源告警判断条件,判断当前系统中产生的“MS和CM通讯异常”告警的根源告警为“CM系统异常告警”,同时将用“紧急告警”标识来表示“CM系统异常告警, 并通过SNMP Agent转发给网管系统中的告警处理模块;在本发明实施例一中,告警分析引擎提供了告警上报的通用框架机制,例如分析逻辑定时触发,告警上报等;具体的告警触发机制可以根据产品需要来具体定制。在本发明实施例一中,由告警分析引擎生成的根源告警直接通知给网管系统,但为了尽量的减少对现有网管系统的冲击,保持现有网管系统的架构、处理流程和业务逻辑, 本发明实施例中仍然通过SNMP Agent转发给网管系统;在上述告警分析引擎在提取出的告警数据中发现根源告警的过程,可以通过存储过程来实现,并且该存储过程可以根据需要动态的加载或者屏蔽。本发明实施例中,告警规则的加载可以通过配置文件来定义,每个配置文件的每一行表示一个告警探测任务,格式为存储过程名告警名称告警ID告警严重级别检查周期(若前面加#,则表示暂时不执行该规则)本发明实施例中,由告警分析引擎确定的根源告警和加载的告警规则。可以通过上述格式来表示。同时,由于存储过程可以动态的在系统中添加,告警探测任务也可以通过配置文件动态的添加或者删除;也就是说,从告警数据库中获取网管系统对网络元件告警处理后的告警处理信息,并分析获得根源告警的过程也可以根据需要动态添加删除。600、SNMP Agent将新生成的告警“CM系统异常”上报告警处理模块,网管系统在大量告警事件中,优先查看“紧急告警”的告警事件,从而解决了与该高级别告警“CM系统异常”引导的大量低级别告警“MS和CM通讯异常”。通过上述本发明实施例可知,本发明技术方案是在原有告警处理流程中,引入统计分析过程通过对细粒度级别的告警事件进行统计分析,从而发现系统性的,宏观性的业务问题;如果不采用上述实施例所述方法时,当IPTV系统中由于CM系统异常引起大量MS 均向网管上报”MS和CM通讯异常”告警时,系统管理员针对大量告警事件,无从下手;当采用上述本发明实施例的技术方案时,系统管理员可以在大量告警事件中通过告警标识及时使网管关注根源告警,对与“根源告警”相关的告警事件进行处理,避免了网络严重故障的产生。本发明实施例弓丨入实施例二对告警分析表再次进行说明。实施例二 本发明实施例,IPTV系统的MS设备是负责流媒体发放的,对带宽的要求很高,MS 设备在业务繁忙时出现的“带宽占用率过高”告警为正常告警。但若系统中同一台MS设备的告警频率明显大于其他MS设备,其原因很可能是该MS设备存在异常的网络流量,或者异常的存储流量。存在异常的网络或者存储流量。下面针对IPTV系统采用本发明实施例的技术方案对告警分析流量进行详细说明其中,需要说明的是,本发明实施例二中网络元件MS设备向SNMPAgent上报告警, 以及SNMP Agent向网管上报告警的处理流程与上述实施例一中步骤100、200和300中记载的处理流程相同,其区别仅在于告警事件的类型及内容不同,具体可以参见上述实施例一中的相关步骤,在此不作赘述;400、本发明实施例中采用告警分析引擎定期从告警数据库中提取网管网络元件告警处理后的告警处理信息,在本实例中将告警类型为“带宽占用率过高”的告警信息提取出来,根据告警分析表进行统计分析,来确定该告警类型的根源告警;具体的,由于本实施例预先根据不同的告警类型制定了告警分析表,所以根据该告警分析表中的根源告警判断条件,可以发现IPTV系统群发性的一些故障。在本实施例中该根源告警判断条件设定为1)统计1天中告警类型为“宽带占用率过高”的告警事件,确定每个MS设备产生 “宽带占用率过高”的告警事件的平均次数;2)将每个MS设备产生的“宽带占用率过高”告警事件次数与平均次数相比较,若比较后该差值大于5倍,则其根源告警可能为“MS设备带宽使用异带”;500、通过上述根源告警判断条件,判断出当前系统中产生的“宽带占用率过高”告警的根源告警可能为“MS设备宽带使用异常”,同时通过“紧急告警”标识来表示该根源告警,并通过SNMP Agent转发给网管系统;在本发明实施例二中,由告警分析引擎生成的根源告警可以直接通知网管系统, 也可以通过SNMP Agent转发给网管系统。600、SNMP Agent将新生成的告警“MS设备宽带使用异常”上报告警处理模块,网管系统在大量告警事件中,优先对“紧急告警”级别的告警事件进行处理时,就会获知该根源告警,采用检查业务调度率或检查存储流量的方式对与该根源告警有关的告警事件进行及时处理,避免了网络严重故障的产生。通过上述本发明实施例可知,当IPTV系统由于调度策略配置不合理,部分设备负荷过重时,大量设备在使用高峰时均会上报“带宽占用率过高”提示告警如果不采用本发明实施例的技术方案,管理员从中确定这些告警是否属于设备的提示告警,由于其告警级别不高,所以很大程度上降低了根源告警的处理概率;当采用本发明实施例的技术方案后,告警分析引擎通过对大量“带宽占用率过高”告警信息进行统计分析,通过将“MS设备带宽使用异常”标识为“紧急告警”,管理员能够很容易发现故障MS设备,及时调整系统负载,解决与该根源告警相关的告警事件。针对IPTV系统中由于设备存储异常,导致存储输入输出流量变大,存储端口“带宽占用率过高”时,如果不采用本发明实施例的技术方案,管理员从中确定这些告警是否属于设备的网络元件设备的正常告警;当采用本发明实施例的技术方案后,大量设备在设备高峰时都上报“带宽占用率过高”告警;告警分析引擎通过对大量“带宽占用率过高”告警信息进行统计分析,上报通过“紧急告警”标识表示的“MS设备带宽使用异常”的根源告警, 管理员很容易发现故障MS设备,从而引导系统管理员尽早发现存储异常,避免对用于业务影响。基于上述本发明实施例,本发明基于对低级别告警的统计分析,发现系统的高级别故障告警,并且本发明的实现并未改变现有告警处理逻辑,只是在现有告警数据的基础上对告警数据进行统计分析,揭露出根本性的系统故障原因,并及时通知网管系统对该根源故障进行处理,以确保网络的安全。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-only Memory, ROM)或随机存储记忆体(Random AccessMemory, RAM)等。 以上所述,仅为本发明较佳的具体实施方式
,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换, 都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
权利要求
1.一种告警的分析方法,其特征在于,包括从数据库中获取网管系统针对网络元件告警进行处理后的告警处理信息;根据预定的告警分析表对所述告警处理信息进行分析,确定根源告警。
2.根据权利要求1所述的方法,其特征在于,从数据库中获取网管系统针对网络元件告警进行处理后的告警处理信息,包括从数据库中按照告警类型提取所述告警处理信息;所述告警处理信息包括网管系统对网络元件告警处理后的数据和/或告警相关性分析后的数据。
3.根据权利要求2所述的方法,其特征在于,根据预定的告警分析表对所述告警处理信息进行分析,确定根源告警,包括根据所述告警分析表分析所述网管系统对网络元件告警处理后的数据和/或告警相关性分析后的数据,所述告警分析表中记录了针对不同告警类型制定的根源告警判断条件;根据所述根源告警判断条件生成所述根源告警。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括将所述根源告警通知网管系统,以便网管系统获知所述根源告警。
5.根据权利要求1至4中任一所述的方法,其特征在于,所述方法还包括用告警标识区分所述同一告警类型下的网络元件告警以及所述根源告警。
6.一种告警分析装置,其特征在于,包括第一信息获取模块,用于从数据库中获取网管系统针对网络元件告警进行处理后的告警处理信息;第一信息处理模块,用于根据预定的告警分析表对所述告警处理信息进行分析,确定根源告警。
7.根据权利要求6所述的装置,其特征在于,所述第一信息获取模块包括第一信息提取单元,用于从数据库中按照告警类型提取所述告警处理信息;所述告警处理信息包括网管系统对网络元件告警处理后的数据和/或告警相关性分析后的数据;第一信息传送单元,用于将所述第一信息提取单元获得的所述告警处理信息传送给所述第一信息处理模块。
8.根据权利要求7所述的装置,其特征在于,所述第一信息处理模块包括第一信息判断单元,用于根据所述告警分析表分析所述网管系统对网络元件告警处理后的数据和/或告警相关性分析后的数据,所述告警分析表中记录了针对不同告警类型制定的根源告警判断条件;根源告警确定单元,用于根据所述根源告警判断条件生成所述根源告警。
9.根据权利要求6-8中任一所述的装置,其特征在于,所述装置还包括根源告警通知模块,用于将所述根源告警通知网管系统,以便网管系统获知所述根源告警;根源告警提示模块,用于通过告警标识区分所述同一告警类型下的网络元件告警事件以及所述根源告警。
10.一种告警分析系统,其特征在于,包括网管系统,用于针对网络元件告警进行处理,并将处理后的告警处理信息保存在数据库中;还用于接收告警分析装置确定的根源告警;告警分析装置,用于从数据库中获取所述网管系统保存的针对网络元件告警进行处理后的告警处理信息,根据预定的告警分析表对所述告警处理信息进行分析后,确定根源告警,并向网管系统上报。
全文摘要
本发明公开了一种告警的分析方法、装置及系统,技术方案中该方法包括从数据库中获取网管系统针对网络元件告警进行处理后的告警处理信息;根据预定的告警分析表对所述告警处理信息进行分析,确定根源告警。该装置包括用于从数据库中获取网管系统针对网络元件告警进行处理后的告警处理信息的第一信息获取模块,以及用于根据预定的告警分析表对所述告警处理信息进行分析,确定根源告警的第一信息处理模块。采用本发明的技术方案,通过根据预先设置的告警分析表对网管系统的告警处理信息进行再次分析,能够及时确定系统中故障的根源告警,从而确保通信网络的正常运行。
文档编号H04L12/24GK102195791SQ20101012030
公开日2011年9月21日 申请日期2010年3月5日 优先权日2010年3月5日
发明者苏强 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1