数据业务系统退服告警的方法、装置及系统的制作方法

文档序号:7743102阅读:132来源:国知局
专利名称:数据业务系统退服告警的方法、装置及系统的制作方法
技术领域
本发明涉及通信行业数据业务技术领域,尤其涉及一种数据业务系统退服告警的方法、装置及系统。
背景技术
随着移动通信技术的发展和3G(3rf Generation)网络的建设,手机终端功能也不断增强,手机通过3G网络使用的新业务和新应用发展迅猛,包括手机上网、多媒体消息(彩信)、手机游戏、手机阅读、无线音乐、手机地图、手机电视等,其中绝大多数都属于数据新业务。随着数据新业务的不断推广,数据业务系统的作为承载数据业务的关键网元,发挥着日益重要的作用和地位,全网数据网络的设备数量和规模也迅速增加,同时带来了网络运营和维护工作量的巨大挑战。对业务运行质量的监控主要依靠三种手段业务拨测,业务指标监控,网管告警。一、业务指标监控业务指标监控是实现对数据业务系统运行情况和质量监控的重要手段,通过该业务系统的关键指标是否异常来判断业务的运行情况,上述关键指标包括业务量指标,接通率指标。由于各数据业务系统的话单量都非常庞大,不能保证实时的话单处理和报表呈现, 无法保证通过业务指标监控发现问题和故障的实时性。二、业务拨测业务拨测是通过拨测系统模拟用户在不同拨测地点进行业务拨测,可以很方便的了解不同省份的业务质量情况。同时在发生故障的情况下,查看拨测系统统计结果可以了解故障影响范围,一定程度上可以缩小定位故障网元的时间,保障故障的快速恢复。但是业务拨测实现的成本较高,操作较为繁琐。三、网管告警网管告警是实现日常业务监控的主要手段,目前的网管告警包括设备自身告警和网管系统探测告警两类。对于承载话音业务的交换网和信令网,主要通过设备自身告警进行监控。最严重需要立即处理的告警种类包括交换机退服告警、基站退服告警、信令点不可达告警等。这些告警都已经在话务网管实现标准化的呈现,通过这些严重告警可以快速定位故障设备,并按照标准故障处理流程进行处理。数据业务网络大部分都属于新兴业务系统,在网管功能方面非常不健全,很多时候都是先有业务应用开展,后接入数据网管系统管理。因此,数据网设备自身告警没有实现标准化,缺乏业务系统退服的告警信息。在实现本发明过程中,发明人发现现有技术数据业务系统退服告警方式中存在如下问题缺乏实时性业务系统退服的告警信息,从而对数据业务系统的管理和维护造成困难。

发明内容
本发明的目的是解决数据业务系统退服告警方式缺乏实时性业务系统退服的告警信息的问题,提出一种数据业务系统退服告警的方法、装置及系统,以提高业务系统告警的实时性,提高维护效率。为实现上述目的,根据本发明的一个方面,提供了一种数据业务系统退服告警的方法,包括探测数据业务系统网管采集机的心跳信息;探测数据业务系统操作维护终端的可达性;根据网关采集机的心跳信息和操作维护终端的可达性,确定是否发送数据业务系统退服报警信息。本技术方案中,探测数据业务系统网管采集机的心跳信息的步骤具体包括网管系统与网管采集机协商心跳告警策略;网管采集机向网管系统发送符合心跳告警策略的心跳信息;如果网管系统超时未收到心跳信息,判断网管采集机出现故障或不可达。本技术方案中,探测数据业务系统操作维护终端的可达性的步骤具体包括网管系统按照预设的时间间隔发送Ping探测协议报文至操作维护终端;如果超时未收到Ping 探测协议报文的回复消息,判断操作维护终端出现故障或不可达。本技术方案中,根据网关采集机的心跳信息和操作维护终端的可达性,确定是否发送数据业务系统退服报警信息的步骤具体包括如果网管采集机出现故障或不可达,且同时操作维护终端出现故障或不可达,则发送数据业务系统退服报警信息;否则,不发送数据业务系统退服报警信息本技术方案中,当操作维护终端位于数据业务系统网络内,且网管系统位于数据业务系统网络外时,数据业务系统开放网管系统至操作维护终端的公网地址访问权限。为实现上述目的,根据本发明的另一个方面,提供了一种数据业务系统退服告警的网管系统,包括探测模块,用于探测数据业务系统网管采集机的心跳信息和数据业务系统操作维护终端的可达性;告警模块,用于根据网关采集机的心跳信息和操作维护终端的可达性,确定是否发送数据业务系统退服报警信息。本技术方案中,探测模块包括第一探测子模块和第二探测子模块,其中第一探测子模块用于接收符合预设心跳告警策略的心跳信息;第二探测子模块用于按照预设的时间间隔发送Ping探测协议报文至操作维护终端,并接收操作维护终端对Ping探测协议报文的回复消息,从而判断操作维护终端的可达性。告警模块,用于如果超时未收到网管采集机的心跳信息,且同时超时未收到Ping探测协议报文的回复消息,则发送数据业务系统退服报警信息。为实现上述目的,根据本发明的另一个方面,提供了一种数据业务系统退服告警的系统,包括网络采集机、操作维护终端、网管系统,其中网络采集机,用于向网管系统按照预设心跳告警策略发送心跳信息;操作维护终端,用于根据网管系统按照预设的时间间隔发送Ping探测协议报文返回回复消息;网管系统,用于根据网关采集机的心跳信息和操作维护终端的可达性,确定是否发送数据业务系统退服报警信息。本发明各实施例的数据业务系统退服告警的方法、装置及系统,通过对数据网系统关键网元的监控,来实现对系统退服故障的监控,从而提高了数据业务系统退服告警实时性,有利于提高维护效率。本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。


附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中图1为数据业务系统的组网结构图;图2为本发明实施例一数据业务系统退服告警方法的流程图;图3为本发明实施例二数据业务系统退服告警方法的流程具体实施例方式以下结合附图对本发明的实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。实施例一为了更加详细的描述本实施例,以下将对数据业务系统组网结构和系统退服原因进行分析。一、数据业务系统组网结构数据网管系统主要的告警都通过网管系统自身探测产生的告警来实现对业务系统的运行监控,实现的原理是每套数据业务系统内部都安置了网管采集机设备,在所有业务系统内部主机设备上都安装网管代理Agent,通过网管代理Agent对该设备运行的性能情况进行监控,如果发现异常就产生告警传送给网管采集机,网管采集机再传送告警到数据网管系统进行统一呈现。由于网管代理Agent监控的指标主要是主机性能指标,产生的告警类别有限,包括性能告警(CPU利用率、内存利用率、磁盘利用率)、端口和链路down 告警、节点Ping不可达告警、进程down告警等。同时由于每数据业务系统都是由数十台设备组成的集群主机来共同提供服务,每一台主机上的网管代理Agent都是单独工作,产生一台设备的告警不能代表整体系统的运行情况。目前数据网管产生的告警绝大多数都是这种单台设备主机性能的告警,无法产生对一套数据业务系统退服或者业务异常的告警信息,影响了日常维护和监控的效率。图1为数据业务系统的组网结构图,如图1所示,从CMNET骨干网交换机往下就是数据业务系统,依次是系统内的主备防火墙,主备四层交换机,主备局域网交换机,然后是业务处理主机的集群,网管采集机,报表服务器,数据库服务器,操作维护终端。图1中,数据网系统内部的主机设备的网管代理Agent会定时探测主机性能指标,发现异常就会传送给网管采集机,然后通过CMNET最终上报到网管系统进行告警呈现,其中虚线标识是网管告警的上报路由途径。二、系统退服故障的原因分析由于数据业务系统组网已经考虑了在单台设备故障的情况下的备份和自动切换, 系统内的关键设备也都是主备配置的,一般情况下单台设备故障不会影响整体业务运行。 但在特殊情况下,比如系统bug,路由环路,路由诊断等异常原因引起的故障,则会导致多台设备中断服务甚至整套系统和CMNET断开连接,造成系统脱网的重大故障。在日常维护和监控中,这种故障也是需要重点关注和立即处理的故障,但目前的网管系统没有类似的系统脱网或者系统退服的告警,就造成了在紧急故障情况下,无法第一时间定位故障网元,进行业务恢复。为了实现对系统退服故障的监控,根据统计在系统脱网引起的退服告警中,大部分都是由于防火墙或者交换机设备端口硬件故障,并由于硬件版本BUG原因,备用设备没有及时接管服务导致整套业务系统无法访问,产生系统脱网严重故障。很少发生其他情况下的系统退服告警。理论上,可能存在数据库主备双机同时故障,或关键应用软件故障引起的业务不可用退服故障,但现网很少发生这种除了系统脱网外引起的系统退服故障。因此, 可以通过实现对系统脱网故障的告警监控来间接实现系统退服故障的告警监控。图2为本发明实施例一数据业务系统退服告警方法的流程图。如图2所示,本实施例包括步骤S102 探测数据业务系统网管采集机的心跳信息;步骤S104 探测数据业务系统操作维护终端的可达性;步骤S106 根据网关采集机的心跳信息和操作维护终端的可达性,确定是否发送数据业务系统退服报警信息。本实施例中,检测数据业务系统是否正常访问,是否存在脱网故障,可以通过网管系统从外部进行探测来实现。基于数据业务系统的安全配置要求,每套数据业务系统内部的设备一般都分配的是私网IP地址,保障内部设备和业务与外部隔离。但为了日常操作维护和紧急故障的远程处理,至少有2台设备是具有公网IP地址,包括网管采集机和操作操作维护终端,该地址是配置在系统防火墙上的公网IP至私网IP的地址转换策略,使特定私网IP的设备可以具备公网地址从外网访问。网管系统需要和网管采集机传送告警信息,是通过访问网管采集机的公网地址来进行协议交互的。系统管理员可以通过公网访问操作维护终端地址来登入系统,并通过该终端作为跳板机,登录其他设备的私网IP,即可实现对所有设备的日常操作维护。因此,为了实现本实施例的方法,当操作维护终端位于数据业务系统网络内,且网管系统位于数据业务系统网络外时,数据业务系统应当开放网管系统至操作维护终端的公网地址访问权限。本实施例提出的方法通过对数据网系统关键网元的监控,来实现对系统退服故障的监控,从而提高告警实时性和全面性,提高维护效率。实施例二由于在系统脱网故障发生的情况下,无法从外网访问系统,造成业务中断,同时网管系统将失去对网管采集机的心跳探测,无法从系统网络内的网管采集机同步告警信息, 另外远程操作维护终端也将无法从外网登录访问。本实施例将在实施例一的基础上,结合数据业务系统的具体网元,对本发明进行详细说明。图3为本发明实施例二数据业务系统退服告警方法的流程图。如图3所示,本实施例包括步骤S202 网管系统与网管采集机协商心跳告警策略;步骤S204 网管采集机向网管系统发送符合心跳告警策略的心跳信息;步骤S206 网管系统是否正常收到心跳信息,如果是,执行步骤S208,否则,执行步骤S210 ;
步骤S208 网管采集机运行正常,流程结束;步骤S210 判断网管采集机出现故障或不可达;步骤S212 网管系统按照预设的时间间隔发送Ping探测协议报文至操作维护终端;步骤S214:网管系统是否按时收到Ping探测协议报文的回复消息,如果是,执行步骤S216,否则,执行步骤S218 ;步骤S216 操作维护终端运行正常,流程结束;步骤S218 判断操作维护终端出现故障或不可达;步骤S220 如果网管采集机出现故障或不可达,且同时操作维护终端出现故障或不可达,则发送数据业务系统退服报警信息。本实施例中,步骤S202-步骤S210为分支一,为产生网管系统对网管采集机是否能正常访问的告警,该告警可以通过定制和网管采集机之间的心跳告警来实现。具体来讲, 通过网管系统下发策略给网管采集机,让网管采集机按固定时间间隔(设置默认间隔时间为5分钟)发送探测协议报文给网管系统,正常情况下网管系统收到该协议报文即回复,表示网管采集机正常工作,并且到网管系统的网络路由也正常。在采集机自身发生故障的情况下,网管系统收不到采集机的探测报文,即表明采集机端出现问题,于是产生一条告警信息XX系统网管采集机心跳告警。本实施例中,步骤S212-步骤S218为分支二,为数据业务系统内部的操作维护终端可达性探测告警。具体来讲,网管系统按固定时间间隔(设置默认间隔时间为5分钟) 发送Ping探测协议报文给业务系统内的操作维护终端,该业务系统防火墙需要制作相应策略放开网管系统地址到业务系统内该终端公网地址的Ping报文访问权限。这样,按照协议要求,该终端收到Ping探测报文后会立即回复R印Iy报文给网管系统,通过收到回复报文的情况可以判断到业务系统内部主机的可达性。如果超时收不到该Ping报文的回复消息,则产生一条告警XX系统的操作维护终端不可达告警。本实施例中分支一和分支二的顺序可以互换,并不影响本技术方案的实施。在上述分支一、二原始告警的基础上,我们就可以按定制产生系统退服告警的目标进行关联告警的配置了 如果网管系统同时产生了 XX系统网管采集机心跳告警和XX系统的操作维护终端不可达告警,则不呈现以上2条告警,而合并为一条严重级别的关联告警XX系统退服口目。传统的监控方式,通过业务拨测和业务指标监控,不能准确的定位故障系统,需要和网管告警等手段来配合,而现有的网管告警能够探测的告警类别都局限在主机层面,不能产生系统退服告警来方便的进行故障定位和故障恢复,无法满足日常维护监控需要。本实施例二数据业务系统退服告警方法,可以在现有网管手段下,方便快捷的实现对于数据业务系统退服告警的呈现和监测,从而极大的提高了故障定位和排查的效率,缩短了业务恢复时间,同时也给终端用户提供了更好的业务服务质量和体验。实施例三本实施例提供了一种数据业务系统退服告警的网管系统,包括探测模块,用于探测数据业务系统网管采集机的心跳信息和数据业务系统操作维护终端的可达性;告警模块,用于根据网关采集机的心跳信息和操作维护终端的可达性,确定是否发送数据业务系统退服报警信息。本实施例中,探测模块包括第一探测子模块和第二探测子模块。第一探测子模块用于接收符合预设心跳告警策略的心跳信息;第二探测子模块用于按照预设的时间间隔发送Ping探测协议报文至操作维护终端,并接收操作维护终端对Ping探测协议报文的回复消息,从而判断操作维护终端的可达性。告警模块,用于在超时未收到网管采集机的心跳信息,且同时超时未收到Ping探测协议报文的回复消息时,发送数据业务系统退服报警信肩、ο本实施例中,当操作维护终端位于数据业务系统网络内,且网管系统位于数据业务系统网络外时,数据业务系统开放网管系统至操作维护终端的公网地址访问权限。本实施例提供的网管系统具体实现的步骤可以参照实施例一、二的相关说明,并具有上述实施例的全部有益效果,此处不再重述。实施例四本实施例提供了一种数据业务系统退服告警的系统,包括网络采集机、操作维护终端、网管系统,其中网络采集机,用于向网管系统按照预设心跳告警策略发送心跳信息; 操作维护终端,用于根据网管系统按照预设的时间间隔发送Ping探测协议报文返回回复消息;网管系统,用于根据网关采集机的心跳信息和操作维护终端的可达性,确定是否发送数据业务系统退服报警信息。本实施例的网管系统,可以为实施例三的网管系统,本实施例具体实现的步骤可以参照实施例一、二的相关说明,并具有上述实施例的全部有益效果,此处不再重述。本领域普通技术人员可以理解实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于可读取存储介质中,该程序在执行时, 执行包括上述方法实施例的步骤;而前述的存储介质包括R0M、RAM、磁碟、光盘、网络节点、调度器等各种可以存储程序代码的介质。最后应说明的是以上所述仅为本发明的优选实施例而已,并不用于限制本发明, 尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。 凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种数据业务系统退服告警的方法,其特征在于,包括探测数据业务系统网管采集机的心跳信息;探测数据业务系统操作维护终端的可达性;根据所述网关采集机的心跳信息和所述操作维护终端的可达性,确定是否发送数据业务系统退服报警信息。
2.根据权利要求1所述的方法,其特征在于,所述探测数据业务系统网管采集机的心跳信息的步骤具体包括网管系统与网管采集机协商心跳告警策略;网管采集机向网管系统发送符合所述心跳告警策略的心跳信息;如果网管系统超时未收到所述心跳信息,判断网管采集机出现故障或不可达。
3.根据权利要求1所述的方法,其特征在于,所述探测数据业务系统操作维护终端的可达性的步骤具体包括网管系统按照预设的时间间隔发送Ping探测协议报文至所述操作维护终端;如果超时未收到所述Ping探测协议报文的回复消息,判断所述操作维护终端出现故障或不可达。
4.根据权利要求1所述的方法,其特征在于,所述根据网关采集机的心跳信息和操作维护终端的可达性,确定是否发送数据业务系统退服报警信息的步骤具体包括如果网管采集机出现故障或不可达,且同时操作维护终端出现故障或不可达,则发送数据业务系统退服报警信息;否则,不发送数据业务系统退服报警信息。
5.根据权利要求2-4中任一项所述的方法,其特征在于当所述操作维护终端位于数据业务系统网络内,且所述网管系统位于数据业务系统网络外时,所述数据业务系统开放所述网管系统至所述操作维护终端的公网地址访问权限。
6.一种数据业务系统退服告警的网管系统,其特征在于,包括探测模块,用于探测数据业务系统网管采集机的心跳信息和数据业务系统操作维护终端的可达性;告警模块,用于根据所述网关采集机的心跳信息和所述操作维护终端的可达性,确定是否发送数据业务系统退服报警信息。
7.根据权利要求6所述的网管系统,其特征在于,所述探测模块包括第一探测子模块和第二探测子模块,其中所述第一探测子模块用于接收符合预设心跳告警策略的心跳信息;所述第二探测子模块用于按照预设的时间间隔发送Ping探测协议报文至所述操作维护终端,并接收操作维护终端对所述Ping探测协议报文的回复消息,从而判断操作维护终端的可达性;所述告警模块,用于在超时未收到所述网管采集机的心跳信息,且同时超时未收到所述Ping探测协议报文的回复消息时,发送数据业务系统退服报警信息。
8.根据权利要求6或7所述的网管系统,其特征在于当所述操作维护终端位于数据业务系统网络内,且所述网管系统位于数据业务系统网络外时,所述数据业务系统开放所述网管系统至所述操作维护终端的公网地址访问权限。
9.一种数据业务系统退服告警的系统,其特征在于,包括网络采集机、操作维护终端、网管系统,其中网络采集机,用于向所述网管系统按照预设心跳告警策略发送心跳信息;操作维护终端,用于根据网管系统按照预设的时间间隔发送Ping探测协议报文返回回复消息;网管系统,用于根据所述网关采集机的心跳信息和所述操作维护终端的可达性,确定是否发送数据业务系统退服报警信息。
10.根据权利要求9所述的系统,其特征在于,所述网管系统包括探测模块,用于探测数据业务系统网管采集机的心跳信息和数据业务系统操作维护终端的可达性;告警模块,用于根据所述网关采集机的心跳信息和所述操作维护终端的可达性,确定是否发送数据业务系统退服报警信息。
11.根据权利要求10所述的系统,其特征在于,所述探测模块包括第一探测子模块和第二探测子模块,其中所述第一探测子模块用于接收符合预设心跳告警策略的心跳信息;所述第二探测子模块用于按照预设的时间间隔发送Ping探测协议报文至所述操作维护终端,并接收操作维护终端对所述Ping探测协议报文的回复消息,从而判断操作维护终端的可达性;所述告警模块,用于在超时未收到所述网管采集机的心跳信息,且同时超时未收到所述Ping探测协议报文的回复消息时,发送数据业务系统退服报警信息。
12.根据权利要求9-11中任一项所述的装置,其特征在于当所述操作维护终端位于数据业务系统网络内,且所述网管系统位于数据业务系统网络外时,所述数据业务系统开放所述网管系统至所述操作维护终端的公网地址访问权限。
全文摘要
本发明公开了一种数据业务系统退服告警的方法、装置及系统。该方法包括探测数据业务系统网管采集机的心跳信息;探测数据业务系统操作维护终端的可达性;根据网关采集机的心跳信息和操作维护终端的可达性,确定是否发送数据业务系统退服报警信息。本发明各实施例的数据业务系统退服告警的方法、装置及系统,通过对数据网系统关键网元的监控,来实现对系统退服故障的监控,从而提高了数据业务系统退服告警实时性和全面性,有利于提高维护效率。
文档编号H04L12/26GK102195824SQ201010119298
公开日2011年9月21日 申请日期2010年3月5日 优先权日2010年3月5日
发明者尤梦, 张慧勇, 杨健 申请人:中国移动通信集团公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1