网元异常告警方法、装置及系统的制作方法

文档序号:7743258阅读:152来源:国知局
专利名称:网元异常告警方法、装置及系统的制作方法
技术领域
本发明涉及一种数据业务管理技术,尤其涉及一种网元异常告警方法、装置及系统。
背景技术
随着移动通信技术的进步,数据业务迅速发展,新业务层出不穷,网络复杂性也日益提高,这对数据网络的监控维护工作提出了更高的要求。数据网络监控维护工作的重点工作之一就是故障管理。作为网络运维支撑的重要组成部分,故障管理提供了对异常状态的检测、隔离和修复的能力,其中故障跟踪和定位又是故障管理中的关键步骤。及时发现定位网络故障,快速排除故障,尽量减小故障对业务的影响,减少用户的不良体验,是运维工作的核心之一。数据业务系统和传统的电信设备有着很大的差异。传统的电信设备,一般都是一个有机的整体,而数据网系统,一般都是由很多类设备组成的一个小型网络。一个典型的数据业务系统,一般由防火墙、交换机、路由器、四层交换机、主机、磁盘阵列、数据库、中间件等部分组成。以彩信系统为例,如图1所示,我们通常所说的彩信中心是由两台防火墙设备、两台交换机设备、两台路由器设备、两台负载均衡器设备、两台集成刀片服务器设备、两套磁盘阵列以及主机、磁带库等组成。由于数据业务系统的组成特点,也导致数据系统的告警和故障定位存在特殊性。 数据业务系统的告警,主要分成两类(1)设备本身的告警。比如当路由器发现本身运行有异常时,会通过TRAP消息,发送到网管,网管产生告警;(2)在设备上安装代理软件,通过代理软件对设备运行情况进行监控,当代理软件发现设备运行异常时,向网管发送消息,网管产生告警。这两种类型的告警存在一些优势,能够及时的发现单个设备的故障,维护人员及时处理这些故障,可以避免整个系统发生故障。但这两类告警也存在一定的局限,即不能够及时发现或判定系统的退服故障。比如,当数据库发生异常时,有可能整个业务系统已经不能够对外提供服务,但是网管系统发出的仍然是单个设备的告警,还要借助其它手段(比如业务拨测等),才能够判定系统的运行状态。现有技术主要存在以下缺陷1、通过设备本身现有告警或网管代理软件的告警,不能够及时发现或判定系统的退服故障,比如,当数据库发生异常时,有可能整个业务系统已经不能够对外提供服务,但是网管系统发出的仍然是单个设备的告警,还要借助其它手段(比如业务拨测等),才能够判定系统的运行状态;2、通过现有拨测系统的告警,也不能精确判定系统的退服故障。拨测系统是模拟用户行为,对业务质量进行监控,监控的是全流程的业务质量情况。比如彩信拨测失败,可以判定彩信质量下降了,但是由于发送、接收彩信经过了无线设备、核心网、GPRS服务支持节点(SERVICE GPRSSUPPORT NODE,简称 SNSN)、GPRS 网关支持节点(Gateway GPRSSupport Node,GGSN)、WAP网关、彩信中心、短信中心等多个网元,仍然无法判定是那个网元发生故障了 ;3、通过拨测系统模拟用户行为进行业务测试,测试的频度不能很高,而且拨测业务模拟用户行为,需要占用卡号资源,并且产生大额的业务使用费用。

发明内容
本发明的目的在于,提供一种网元异常告警方法、装置及系统,能够准确、及时地定位出现异常的网元。为实现上述目的,根据本发明的一个方面,提供一种网元异常告警方法,A、相邻网元之间相互发送探测消息,并针对接收到的探测消息返回响应消息;B、每个网元根据自身接收到的其他网元的响应消息确定对应网元是否异常;C、当其中一个网元异常时,其他网元上报对于该异常网元的告警消息。为实现上述目的,根据本发明的另一个方面,提供一种网元状态检测装置,包括探测消息生成模块,用于生成针对不同网元的探测消息;响应消息生成模块,用于根据网元状态检测装置所在网元的自身状态,针对不同相邻网元发送的探测消息生成相应的响应消息;;发送模块,用于发送探测消息至相邻网元,将响应消息发送到对应的网元,并将告警信号发送到网络管理系统;接收模块,用于接收所述相邻网元发送的探测消息及返回的响应消息;检测模块,用于根据接收到的各个网元的响应消息确定对应网元是否异常;告警模块,用于当检测模块检测到相邻网元出现异常时,生成告警信号。为实现上述目的,根据本发明的另一个方面,提供一种网元异常告警系统,包括 多个网元状态检测装置,所述相邻的网元状态检测装置相互发送探测消息,并根据网元状态检测装置所在网元的自身状态,针对不同相邻网元发送的探测消息返回响应消息;每个所述网元状态检测装置根据自身接收到的其他网元的响应消息确定对应网元是否异常;当其中一个网元状态检测装置返回的响应消息异常时,其他网元状态检测装置生成对于该响应消息对应的网元进行的告警消息。本发明的网元异常告警方法、装置及系统,通过相邻网元之间相互发送探测消息, 彼此进行质量检测,当其中一个网元出现异常时,其它相邻的网元能够及时发现异常并进行告警,使得在数据网络中精确定位异常网元,便于维护人员对故障进行及时修复,提高了用户的体验度。


图1是现有技术彩信中心结构拓扑图;图2是本发明网元异常告警方法实施例的流程图;图3是本发明网元异常告警系统实施例的结构图;图4是本发明网元状态检测装置实施例的结构图。
具体实施例方式以下结合附图对本发明进行详细说明。
方法实施例如图2所示,本发明网元异常告警方法实施例包括以下步骤步骤202,相邻网元之间相互发送探测消息;步骤204,每个网元根据自身状态针对接收到其他网元发送的探测消息返回响应消息;步骤206,每个网元根据自身接收到的其他网元的响应消息确定对应网元是否异常;步骤208,当其中一个网元异常时,其他网元上报对于该异常网元的告警消息。如图3所示,以彩信业务为例,彩信中心与WAP网关、号段解析服务器(Enum DNS)、 彩信网关、其它彩信中心相连。各网元间相互发送探测消息,且此探测消息可借用已有业务消息。网元间发起探测消息的时间间隔可以根据实际需要进行配置,可根据预设的时间间隔发送探测消息,例如,可以根据预设的时间间隔持续不断的发送探测消息,或仅在网元空闲时发送探测消息。当设置为根据预设的时间间隔持续不断的发送探测消息时,以彩信业务为例,本发明网元异常告警方法具体流程如下(1)彩信中心A与WAP网关、Enum DNS、彩信网关、其它彩信中心相邻,并相互发送探测消息;(2)当彩信中心A宕机时,WAP网关、Enum DNS、彩信网关、相邻彩信中心向该彩信中心发送探测消息后,返回失败的响应;(3)WAP网关、Enum DNS、彩信网关、相邻彩信中心连续收到失败次数或没有收到响应消息的次数达到设置的阀值,确定对应的网元状态异常;向数据网管系统上报“彩信中心 A业务不可达”告警;(4)数据网管系统收到“彩信中心A业务不可达”告警消息后,在告警平台上进行呈现;(5)当该彩信中心故障恢复后,相邻网元对该彩信中心的探测消息也恢复正常; 连续收到N次(N可设置)成功探测报告后,上报数据网管系统“彩信中心A业务不可达告警清除”消息;(6)数据网管系统收到“彩信中心A业务不可达告警清除”消息后,在告警平台上消除“彩信中心A业务不可达”的告警。当设置为仅在空闲时发送探测消息时,同样以彩信业务为例,本发明网元异常告警方法具体流程如下(1)各个网元能够设置自己与其它网元的忙时和闲时,忙、闲时有两种设置方案A、按时间设置;彩信中心可以设置7:00 19:00是业务忙时,19:00 7:00是业务闲时;B、按业务量设置;彩信中心可以设置当与被监测网元连续10分钟业务量小于1条 /秒时,即进入业务闲时。当连续10分钟实际业务达到1条/秒时,业务进入忙时;(2)彩信中心A与WAP网关、Enum DNS、彩信网关、其它彩信中心在业务闲时互相发送探测消息,在业务忙时,利用实际业务进行连通性监测。
(3)当彩信中心A宕机时,在业务闲时,WAP网关、Enum DNS、彩信网关、相邻彩信中心向该彩信中心发送探测消息后,返回失败的响应;在业务忙时,WAP网关、Enum DNS、彩信网关、相邻彩信中心向该彩信中心发送的实际消息会返回失败的响应;(4)WAP网关、Enum DNS、彩信网关、相邻彩信中心连续收到失败次数达到设置的阀值,向数据网管系统上报“彩信中心A业务不可达”告警;(5)数据网管收到“彩信中心A业务不可达”告警消息后,在告警平台上进行呈现;(6)当该彩信中心故障恢复后,相邻网元对该彩信中心的探测消息也恢复正常; 连续收到N次(N可设置)成功探测报告后,上报数据网管系统“彩信中心A业务不可达告警清除”消息;(7)数据网管系统收到“彩信中心A业务不可达告警清除”消息后,在告警平台上消除“彩信中心A业务不可达”的告警。本发明的网元异常告警方法,通过相邻网元之间相互发送探测消息,彼此进行质量检测,当其中一个网元出现异常时,其它相邻的网元能够及时发现异常并进行告警,使得监控全面,并且可以在数据网络中精确定位异常网元,便于维护人员对故障进行及时修复, 提高了用户的体验度。网元之间的探测可以根据发送探测消息的网元的忙闲状态进行设置,使得网元之间的相互检测不会影响到自身的业务处理。另外,当原异常网元的,故障恢复后,该网元相邻网元通过业务检测机制,能够及时知道该网元状态已恢复,并上报“业务不可达告警清除”消息至数据网管系统。装置实施例如图4所示,本发明网元状态检测装置包括探测消息生成模块402,用于生成针对不同网元的探测消息;响应消息生成模块404,用于根据网元状态检测装置所在网元的自身状态,生成针对不同相邻网元发送的探测消息的响应消息;发送模块406,用于发送探测消息至相邻网元,将响应消息发送到对应的网元,并将告警信号发送到网络管理系统;接收模块408,用于接收所述相邻网元发送的探测消息及返回的响应消息;检测模块410,用于根据接收到的各个网元的响应消息确定对应网元的是否异常;告警模块412,用于当检测模块检测到相邻网元出现异常时,生成告警消息。优选地,本实施例还包括发送控制模块,用于根据网元的忙闲状态或预设的时间间隔控制所述发送模块发送探测消息。其中,检测模块410,当检测到接收到的其中一个网元返回的失败的响应消息的次数达到预设的阈值或没有收到响应消息的次数达到预设的阈值时,确定对应的网元状态异常。
另外,检测模块410,当检测到连续接收到原异常网元的成功的响应消息的次数达到预设的阈值时,确定该原异常网元状态恢复正常;告警模块412,生成对于原异常网元的解除告警消息。本实施例中,每个网元内部包括可以检测其自身状态的模块,响应消息生成模块404,根据网元自身的状态,生成针对不同相邻网元发送的探测消息的响应消息。本实施例的网元状态检测装置,通过相邻网元之间相互发送探测消息,彼此进行质量检测,当其中一个网元出现异常时,其它相邻的网元能够及时发现异常并进行告警,使得监控全面,并且可以在数据网络中精确定位异常网元,便于维护人员对故障进行及时修复,提高了用户的体验度。系统实施例图3是本发明网元异常告警系统实施例的结构图。如图3所示,本发明的网元异常告警系统实施例包括多个网元状态检测装置,相邻的网元状态检测装置相互发送探测消息,并针对接收到的探测消息返回响应消息;每个网元状态检测装置根据自身接收到的其他网元的响应消息确定对应网元是否异常;当其中一个网元状态检测装置返回的响应消息异常时,其他网元状态检测装置生成对于该网元的告警消息。网元的具体结构在上述装置实施例中已经具体描述,在此不再赘述。本实施例中, 网元状态检测装置可以为独立的装置或位于网元之中。本实施例的网元异常告警系统,通过相邻网元之间相互发送探测消息,彼此进行质量检测,当其中一个网元出现异常时,其它相邻的网元能够及时发现异常并进行告警,使得监控全面,并且可以在数据网络中精确定位异常网元,便于维护人员对故障进行及时修复,提高了用户的体验度。应说明的是以上实施例仅用以说明本发明而非限制,本发明也并不仅限于上述举例,一切不脱离本发明的精神和范围的技术方案及其改进,其均应涵盖在本发明的权利要求范围中。
权利要求
1.一种网元异常告警方法,其特征在于,包括A、相邻网元之间相互发送探测消息,并针对接收到的探测消息返回响应消息;B、每个网元根据自身接收到的其他网元的响应消息确定对应网元是否异常;C、当其中一个网元异常时,其他网元上报对于该异常网元的告警消息。
2.根据权利要求1所述的网元异常告警方法,其特征在于,所述网元根据预设的时间间隔发送探测消息。
3.根据权利要求1所述的网元异常告警方法,其特征在于,步骤B包括当所述网元接收到相邻网元中的其中一个网元返回的失败的响应消息的次数达到预设的阈值或没有收到响应消息的次数达到预设的阈值时,确定所述对应的网元状态异常。
4.根据权利要求1所述的网元异常告警方法,其特征在于,所述步骤C之后还包括所述相邻网元向原异常网元发送探测消息;相邻网元根据接收到原异常网元的响应消息确定原异常网元是否恢复正常,当原异常网元恢复正常后,上报对于原异常网元的解除告警消息。
5.根据权利要求4所述的网元异常告警方法,其特征在于,所述相邻网元根据接收到原异常网元的响应消息确定原异常网元是否恢复正常的操作包括当所述相邻网元连续接收到原异常网元的成功的响应消息的次数达到预设的阈值时, 确定该原异常网元状态恢复正常。
6.一种网元状态检测装置,其特征在于,包括探测消息生成模块,用于生成针对不同网元的探测消息;响应消息生成模块,用于根据网元状态检测装置所在网元的自身状态,针对不同相邻网元发送的探测消息生成相应的响应消息;发送模块,用于发送探测消息至相应的相邻网元,将响应消息发送到对应的网元,并将告警信号发送到网络管理系统;接收模块,用于接收相邻网元发送的探测消息及返回的响应消息;检测模块,用于根据接收到的各个网元的响应消息确定对应网元是否异常;告警模块,用于当检测模块检测到相邻网元出现异常时,生成告警消息。
7.根据权利要求6所述的网元状态检测装置,其特征在于,还包括发送控制模块,用于根据所述网元的忙闲状态或预设的时间间隔控制所述发送模块发送探测消息。
8.根据权利要求6所述的网元状态检测装置,其特征在于,所述检测模块,当所述网元接收到相邻网元中的其中一个网元返回的失败的响应消息的次数达到预设的阈值或没有收到响应消息的次数达到预设的阈值时,确定对应的网元状态异常。
9.根据权利要求8所述的网元状态检测装置,其特征在于,所述检测模块,当连续接收到原异常网元的成功的响应消息的次数达到预设的阈值时,确定该原异常网元状态恢复正常;所述告警模块,生成对于原异常网元的解除告警消息。
10.一种网元异常告警系统,其特征在于,包括多个网元状态检测装置,所述相邻的网元状态检测装置相互发送探测消息,并根据网元状态检测装置所在网元的自身状态,针对不同相邻网元发送的探测消息返回响应消息;每个所述网元状态检测装置根据自身接收到的其他网元的响应消息确定对应网元是否异常;当其中一个网元状态检测装置返回的响应消息异常时,其他网元状态检测装置生成对于该响应消息对应的网元进行的告警消息。
11.根据权利要求10所述的网元异常告警系统,其特征在于,所述网元状态检测装置为独立的装置或位于网元之中。
全文摘要
本发明公开了一种网元异常告警方法、装置及系统。其中网元异常告警方法包括A、相邻网元之间相互发送探测消息,并针对接收到的探测消息返回响应消息;B、每个网元根据自身接收到的其他网元的响应消息确定对应网元是否异常;C、当其中一个网元异常时,其他网元上报对于该异常网元的告警消息。本发明的网元异常告警方法、装置及系统,通过相邻网元之间相互发送探测消息,彼此进行质量检测,当其中一个网元出现异常时,其它相邻的网元能够及时发现异常并进行告警,使得在数据网络中精确定位异常网元,便于维护人员对故障进行及时修复,提高了用户的体验度。
文档编号H04W24/02GK102196472SQ20101012092
公开日2011年9月21日 申请日期2010年3月9日 优先权日2010年3月9日
发明者孙金霞, 尤梦, 张慧勇, 杨健, 董晓荔, 陈哲 申请人:中国移动通信集团公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1