一种对数据通道状态进行实时检测的系统和方法

文档序号:82173阅读:397来源:国知局
专利名称:一种对数据通道状态进行实时检测的系统和方法
技术领域
本发明属于通讯领域,涉及分组通讯底层数据通道状态的实时检测技术,具体是一种对数据通道状态进行实时在线检测的系统和方法,本发明通过告警和告警恢复防止正常数据业务的中断,保证数据业务长时间稳定的工作。
背景技术
在现有的移动通讯网络中提供数据业务有两种方式,一种是电路型的数据业务,一种是分组型的数据业务。
电路型的数据业务是基于IWF(Inter-working Function,网络互联功能)来实现的,它主要用来支持第2代手机用户使用数据业务,采用普通的语音通道作为数据包的传输承载,不管用户是否发送分组数据包,用户独占相应空中信道资源和交换机时隙。
分组型数据业务则是采用分组交换设备来实现的,它用于支持2.5代以及以后的第3代手机,用户使用的数据业务,利用该网络可以提供高达100kbps以上速率的数据速率,同时能提供简单IP和移动IP两种方式。
在2.5代网络中,分组数据业务的实现依赖于以下几个设备媒体网关、归属代理、鉴权授权计费中心等。因为采用了IP(Internet Protocol,网络互连协议)包承载技术,所以可以实现按数据量计费,而且可以实现多用户共享信道资源和传输带宽等,采用移动IP技术可以实现永远在线和网络安全等。
随着数据用户的迅速增长,和移动数据业务的快速发展,移动运营商越来越感到提高网络运行维护水平的重要性。提高网络质量,优化网络性能是保证网络安全、稳定、可靠运行的基础,是发挥分组域数据网络高速数据率优势的重要保证。
中国联通的CDMA(Code Division Multi Address,码分多址多路访问)2000-1X(第一阶段)网络通过原有网络基础上并增加了PCF(Packet Control Function,分组控制功能)、PDSN(Packet Data Service Node,分组数据服务节点)、AAA(Authentication、Authorization、Accounting,鉴权授权计费)及相关路由器、防火墙等设备而构成的。他们指定的CDMA2000-1X网络运行维护质量的指标主要包括数据用户的接入成功率、数据用户的掉话率、PCF的注册请求成功率、PPP(Point to Point Protocol,点对点协议)连接成功率、认证请求成功率等。其中最重要的一个指标是分组数据的呼叫建立成功率,数据用户的掉话率等。这一关键指标贯穿无线、PCF、PDSN、AAA等设备,涉及A10/A11(A口协议)信令接口和PPP、IP协议,而底层可靠稳定的数据通道更是提高这一指标的根本保证。
为了应付日益繁忙的信息流,网络设备的底层硬件架构也有了较大的飞跃。当速度比较慢时,通用的CPU(Central Processing Unit,中央处理器)完全能够适应对数据的处理,当网络处理速度较快时就出现了专门的NP(Network Processor-网络处理器)。与通用的处理器的不同之处在于,网络处理器是为优化包处理而设计的,它将包以其到达的速度(即线速)送到下一个节点;而通用处理器则要处理范围很大的各种指令。另外,如果需要新的功能或新的标准,网络处理器可通过编程来实现,以满足各种各样的网络应用,但是网络处理器也不是没有缺点,它对特定数据进行单一处理的性能又不是最好。为了实现既灵活又高速的数据处理能力,业界一般采用以下两种硬件架构1、通用CPU加ASIC(专用集成电路),通用CPU具有较灵活的编程能力,同时驻留有操作系统,可以很便捷的进行各种算法的处理,ASIC又对特定运算的处理能力很强,二者具有很好的互补性。
2、网络处理器加PLD(可编程逻辑器件),网络处理器中存在通用的CPU内核,具有通用CPU的特点,微引擎具有一定的编程能力和数据报文的处理能力,再加上可编程的器件,应用起来非常灵活。
但是无论哪种架构,随着处理能力和灵活性的提升,问题也就显露出来,在大流量进行复杂处理过程中存在着一定量的误码现象,有时会引起稳定性的下降,甚至出现业务中断或系统崩溃的严重后果。问题的原因主要有三点1、由于接口处理的复杂和硬件本身的兼容性的问题,造成系统在高负荷运行的时候,会出现异常。
2、现网的报文比较复杂,会有一些特殊报文在系统设计过程没有考虑到,使得系统处理异常,导致通道被阻塞,也是系统的容错性不够造成的。
3、由于受到器件本身的原因,比如进行热插拔等不当的操作时,会造成器件的损伤。
这些由于底层硬件引起的数据通道的故障一旦出现,就非常难定位,对于上层应用几乎是束手无策。而对于运营的通讯网络来说后果是非常严重的,通常会引起正常业务的中断,从而带来巨大的经济损失。
从以上可以看出,无论从运营商的需求还是硬件架构来看,提高数据通道的可靠性,以及可预见性都具有十分迫切的现实意义。
针对运营商提出的网络质量的指标,厂家采取一定的措施来保证,通常采用相应的二次开发的软件或硬件设备来进行检测。
名称为“一种ID状态信号线的检测方法”的专利申请,公开号为CN1614567,
公开日为2005年5月11日,是一种基于ID状态信号线的单板状态在线检测方法,其步骤为读取功能模块中ID状态信号线的ID标识状态值,进行校验,由该ID标识状态值得出校验线的状态值;将该ID标识状态值和该校验线的状态值按照异或运算式计算,得出结果值;将该结果值与校验线状态值比较是否一致,从而获得检测结果。
该方法通过增加校验线,从而实现了系统中单板的在线检测,当检测异常时,通过预先设定的备用通道实现故障信息的上报,从而避免了因为ID状态信号线出现故障而导致的系统崩溃。
但这种方法的局限性是主要针对单板由于热插拔,或器件失效等原因造成的ID状态异常的问题,不能够很准确的定位数据通道的异常,当ID状态正常时也不能确定数据通道完全正常。
虽然有了二次开发的一些检测软件,但是很多方面并不是很有针对性的解决现网运行的数据通道的一般性问题,而且很多都是在故障已经发生了才检测出故障,正常的用户业务已经中断,造成了巨大的经济损失。

发明内容本发明的目的是在不影响正常的数据业务,基于业界已有的两种架构,提供一种对一般数据通道进行实时在线检测的系统和方法,本发明通过告警、告警恢复,防止正常数据业务中断,保证数据业务长时间稳定的工作。
本发明具体是这样实现的一种对数据通道状态进行实时检测的系统,包括业务代理模块,告警模块,底层数据通道,其特征在于所述业务代理模块,设置检测报文发送模块及检测报文回收模块;所述底层数据通道,设置数据转换模块;所述检测报文发送模块及检测报文回收模块,通过共享内存方式和底层数据通道建立统一的接口,检测报文发送模块构造检测报文,检测报文回收模块回收检测报文;所述数据转换模块,用于检测报文的解析,通过建立的接口分拣出检测报文,分别发送给业务代理模块和底层数据通道;
启动限定检测报文是否按时到达的超时定时器,并初始化设定告警门限的不可达计数器。
所述数据转换模块进一步分为两个转换模块,转换模块一从发送模块接收检测报文并分拣出检测报文,转换模块二从用户数据报文中分拣出检测报文来,并回送给检测报文回收模块。
所述检测报文发送及回收模块由网络处理器的通用CPU中驻留的业务代理模块来完成;所述数据转换模块由网络处理器中的微引擎来完成;所述底层数据通道由可编程逻辑器件构成;所述告警模块由驻留在系统内的代理进程和数据库共同完成。
步骤一,通过共享内存方式和底层数据通道建立统一的接口,检测报文发送模块构造检测报文,检测报文回收模块回收检测报文;步骤二,数据转换模块解析检测报文,通过建立的接口分拣出检测报文,分别发送给业务代理模块和底层数据通道;步骤三,启动限定检测报文是否按时到达的超时定时器,并初始化设定告警门限的不可达计数器。
所述步骤一和步骤二进一步包括如下处理步骤1检测报文发送模块构造出检测报文发送给底层数据通道;步骤2数据转换模块通过建立的接口解析出检测报文的类型,送给底层数据通道和一般用户的数据报文一样处理,出现异常时,检测报文会被丢弃或迟滞。;步骤3处理完成后数据转换模块再次从用户数据报文中分拣出检测报文,然后返回给检测报文回收模块,出现异常情况时,检测报文不能够正常返回。
所述步骤三中,如果检测报文回收模块的定时器超时,不可达计数器值加一,当不可达计数器值超过告警门限时,业务代理模块进入告警状态;如果定时器不超时,业务代理模块维持初始状态。
所述检测报文定义一个用户不能访问的ID号,避免影响正常的用户接入;所述检测报文定义一个序列号,与检测时间间隔相对应,不与时间间隔内对应的序列号的检测报文被丢弃;所述检测报文发送的频率,根据系统流量和用户情况确定;对于前向检测和反向检测,告警和告警恢复的方式不同,构造的检测报文不同。
业务代理模块处于告警状态但没有发送告警消息,则发送告警消息给告警模块,如果告警消息已经发送则不再发送。
如果业务代理模块已经处于告警状态,仍然继续定时的发送检测报文,如果检测报文回收模块的定时器不超时,业务代理模块发送告警恢复消息通知告警模块。
如果检测报文回收模块超时,业务代理模块读取相应底层数据通道相关寄存器的状态,如果底层数据通道的硬件异常,通过写寄存器或复位的方式,使系统重新正常运行。
通过以下具体实施例本发明的有益效果可归纳为1.提供了实时在线检测的方法,由业务代理模块主动地检测底层数据通道,实时性体现在检测过程是周期性的,所以当通道异常时实现实时告警,如果通道恢复正常时,能够实现告警的恢复。
2.专门定义了统一的接口,使底层通道能有效地分拣出检测报文来。
3.通过规定的ID号作为区分,利用一个用户几乎不能访问的ID号来处理检测报文,这样可以避免影响正常的用户接入。另,接口定义的序列号的检测有效的检测出了由于检测报文乱序或底层通道迟滞的情况所带来的异常。
4.当底层数据通道出现异常时,通过分析寄存器的状态和相应统计数据,能较准确的定位出故障的具体原因,并通过写寄存器的方式进行有效的恢复,具有一定的自恢复能力。
5.由于实现该方法基本不需要增加额外的硬件,所以实现简单易行。
图1是本发明所述数据通道检测系统各模块结构图。
图2是本发明所述数据通道状态检测流程图。
具体实施方式如图1所示本发明系统在原软件、硬件架构的基础上,进一步设置以下几个模块。
1、检测报文发送及回收模块驻留在业务代理模块中,通过共享内存等方式和底层数据通道存在统一的接口,其中,发送模块,用于构造检测报文,回收模块,用于回收检测报文。
特点是编程比较灵活,同时驻留有操作系统,可以很方便的完成与系统其它模块的通讯。
2、数据转换模块用于对检测报文的解析,通过统一定义的接口分拣出检测报文发送模块发送的检测报文,再通过硬件接口发送给底层数据通道。该模块进一步分为两个转换模块,转换的作用有所不同,其中,转换模块1从发送模块接收检测报文并分拣出检测报文,转换模块2从用户数据报文中分拣出检测报文,并回送给检测报文回收模块。
特点是数据转发能力强,可以进行一定的编程。
3、底层数据通道用于完成用户数据的处理。
特点是具有高速的数据转发能力,编程不灵活,故障的自诊断,自恢复能力差,往往是出现问题的关键部件。
4、告警模块负责对故障告警和告警恢复。
特点只是被动的显示状态,每个状态都是由它驻留在业务代理模块的消息来通知的,本身不对状态的真伪作判断。
本发明系统实时检测数据通道的状态,在通道异常的时候,发送告警消息给告警模块,通道又恢复正常时,发告警恢复消息给告警模块。
本发明实现的具体环境为检测报文发送及回收模块由网络处理器的通用CPU中驻留的业务代理模块来完成;数据转换模块由网络处理器中的微引擎来完成;底层数据通道由可编程逻辑器件构成;告警模块由驻留在系统内的代理进程和数据库共同完成。
数据通道状态检测及告警具体实现步骤如下步骤1检测报文发送模块构造出检测报文发送给底层数据通道,同时启动超时定时器,并初始化不可达计数器,通过超时定时器来限定检测报文是否按时到达,通过不可达计数器来设定告警门限。
检测报文发送的频率也就是检测的力度,需根据系统流量和用户的情况作专门的考虑和定义。
步骤2数据转换模块1通过硬件接口解析出检测类型的报文,送给底层数据通道,对检测报文同一般用户数据报文一样处理,这个通道的其它类型报文按原来的方式处理,出现异常时,检测报文会被丢弃或迟滞。
步骤3数据处理完成后转换模块2再次从用户数据报文中分拣出检测报文,然后返回给报文回收模块,异常情况,检测报文不能够正常返回。
步骤4检测报文回收模块的定时器超时,即有检测报文没有在规定的时间内返回,业务代理模块认定底层数据通道异常,不可达计数器值加一,当不可达计数器值超过告警门限时(说明检测报文连续几次没有在规定的时间内返回),业务代理模块进入告警状态。如果检测报文在规定时间内返回,业务代理模块维持初始状态。
如果业务代理模块已经处于告警状态,仍然继续定时的发送检测报文,如果检测报文能够在规定的时间内返回,则业务代理模块发送告警恢复消息通知告警模块。
当检测报文不能在告警期限内到达时,业务代理模块读取相应的底层通道相关寄存器的状态,可以判断通道的哪个环节出现问题,如果底层数据通道的硬件异常,则可以通过写寄存器或复位的方式,使系统重新正常运行。
步骤5业务代理模块处于告警状态但没有发送告警消息,则发送告警消息给告警模块,如果告警消息已经发送则不再发送。
以上都是为了使数据业务不中断而对通道状态进行检测的方法,同时实现告警和恢复,数据业务不中断对于通讯领域的数据业务的意义是至关重要的。
上述步骤涉及检测报文发送及回收模块,数据转换模块以及底层数据通道等模块,它们之间的接口,根据系统的要求做统一的定义,而构造的检测报文本身有四个特点1.根据接口定义了检测报文的类型,这样数据转换模块能够从一般用户报文中正确地分拣出检测报文。
2.定义的报文本身是有效的报文(所谓有效是指报文格式与用户数据报文相同,校验和正确等)。
3.在检测报文的接口里定义的用户的ID号是一个用户几乎不能访问的ID号这样可以避免影响正常的用户接入。
4.检测报文接口里定义了一个序列号,它与检测时间间隔相对应,也就是一个时间间隔内只有收到序列号与之对应的检测报文,回收模块才认为检测报文正常到达,否则,回收模块会将报文丢弃。这样可以防止收到的是乱序的报文或是不同时间间隔内的检测报文,提高了检测的准确性。
如图2所示,本发明对数据通道状态检测的过程,具体说明如下100、检测报文发送模块构造检测报文发送给转换模块1,同时启动超时定时器,定时器用来控制检测报文是否按时到达,同时清空不可达计数器,这个计数器限定告警门限。
检测报文的特征1、是有效的报文,所谓有效是指报文格式与用户数据报文相同,校验和正确等,例如在CDMA2000网络中,是用户的数据报文,这样检测报文才能够在整个通道内和正常的数据报文一样被处理,这样的检测才是有效的。
2、构造的检测报文带有序列号,检测报文发送模块按序列号发送检测报文。
101、数据转换模块1解析出检测类型的报文,送给底层数据通道。
102、底层数据通道对检测报文同一般用户报文按相同的方式处理,通道异常时,检测报文在数据通道中会被丢弃或迟滞。
103、数据处理完成后,转换模块2从用户数据报文中分拣出检测报文,再回送给回收模块,通道异常时,检测报文不能正常返回。
104、业务代理模块在定时器超时后,将不可达计数器的值加一,如果该值超过告警门限,则业务代理模块进入告警状态。
业务代理模块接收到检测报文,会对序列号进行校验,如果序列号与所对应的时间间隔不能对应起来,说明,检测报文可能迟后到达或是出现了乱序的情况,业务代理模块会将这样的检测报文丢弃,认为数据通道出现了异常。如果序列号校验正确,那么业务代理模块维持初始状态,不告警。
105、业务代理模块进入告警状态后,它检查告警标志(00该标志用来表示告警信息是否已经发送),如果没有发告警消息给告警模块,则发送告警消息,如果已经发送告警消息,则不再重发,这样处理可以防止过多的告警和恢复消息占用过多的带宽资源。
106、业务代理模块已处告警状态,并且告警消息已经发送,检测报文发送模块仍构造检测报文,发送给转换模块。数据通道恢复正常,检测报文处理完成后按原定接口再返回给回收模块,收到报文后,业务代理模块发告警恢复消息给告警模块,如果业务代理模块没有处于告警状态,那么业务代理模块不发送告警恢复消息给告警模块。
发送的检测报文不同,可分为前向检测和反向检测,告警和告警恢复的处理方式是相同的,例如,在CDMA2000分组域网络中分别构造用户的组帧报文和解帧报文。
在步骤100中,构造的检测报文不能在告警期限内到达时,处理器读取相应的底层通道的寄存器状态,可以判断通道的哪个环节出现了问题,以利于进一步定位故障,并可以通过写寄存器和复位芯片的方式进行告警恢复,对于不能立刻定位的故障,系统还采用单用户跟踪的方式或是写日志的方式为进一步定位问题提供数据。
在步骤104中,告警门限值根据系统流量和检测力度等因素设定。
步骤100至106,涉及检测报文发送及回收模块和数据转换模块以及底层数据通道之间的接口,在本发明中,根据系统的要求作了统一的定义。为了使系统的业务不发生中断这些接口的定义必须根据实际情况,要避免和正常业务发生冲突,底层的通道根据用户的ID号作了区分,来处理检测报文,这样可以避免影响正常的用户接入。
权利要求
1.一种对数据通道状态进行实时检测的系统,包括业务代理模块,告警模块,底层数据通道,其特征在于所述业务代理模块,设置检测报文发送模块及检测报文回收模块;所述底层数据通道,设置数据转换模块;所述检测报文发送模块及检测报文回收模块,通过共享内存方式和底层数据通道建立统一的接口,检测报文发送模块构造检测报文,检测报文回收模块回收检测报文;所述数据转换模块,用于检测报文的解析,通过建立的接口分拣出检测报文,分别发送给业务代理模块和底层数据通道;启动限定检测报文是否按时到达的超时定时器,并初始化设定告警门限的不可达计数器。
2.如权利要求
1所述对数据通道状态进行实时检测的系统,其特征在于所述数据转换模块进一步分为两个转换模块,转换模块一从发送模块接收检测报文并分拣出检测报文,转换模块二从用户数据报文中分拣出检测报文来,并回送给检测报文回收模块。
3.如权利要求
1或2所述的对数据通道状态进行实时检测的系统,其特征在于所述检测报文发送及回收模块由网络处理器的通用CPU中驻留的业务代理模块来完成;所述数据转换模块由网络处理器中的微引擎来完成;所述底层数据通道由可编程逻辑器件构成;所述告警模块由驻留在系统内的代理进程和数据库共同完成。
4.一种对数据通道状态进行实时检测的方法,其特征在于,包括如下处理步骤步骤一,通过共享内存方式和底层数据通道建立统一的接口,检测报文发送模块构造检测报文,检测报文回收模块回收检测报文;步骤二,数据转换模块解析检测报文,通过建立的接口分拣出检测报文,分别发送给业务代理模块和底层数据通道;步骤三,启动限定检测报文是否按时到达的超时定时器,并初始化设定告警门限的不可达计数器。
5.如权利要求
4所述的数据通道状态进行实时检测的方法,其特征在于,所述步骤一和步骤二进一步包括如下处理步骤1检测报文发送模块构造出检测报文发送给底层数据通道;步骤2数据转换模块通过建立的接口解析出检测报文的类型,送给底层数据通道和一般用户的数据报文一样处理,出现异常时,检测报文会被丢弃或迟滞。;步骤3处理完成后数据转换模块再次从用户数据报文中分拣出检测报文,然后返回给检测报文回收模块,出现异常情况时,检测报文不能够正常返回。
6.如权利要求
4所述的数据通道状态进行实时检测的方法,其特征在于所述步骤三中,如果检测报文回收模块的定时器超时,不可达计数器值加一,当不可达计数器值超过告警门限时,业务代理模块进入告警状态;如果定时器不超时,业务代理模块维持初始状态。
7.如权利要求
4所述的对数据通道状态进行实时检测方法,其特征在于所述检测报文定义一个用户不能访问的ID号,避免影响正常的用户接入;所述检测报文定义一个序列号,与检测时间间隔相对应,不与时间间隔内对应的序列号的检测报文被丢弃;所述检测报文发送的频率,根据系统流量和用户情况确定;对于前向检测和反向检测,告警和告警恢复的方式不同,构造的检测报文不同。
8.如权利要求
4所述的对数据通道状态进行实时检测方法,其特征在于业务代理模块处于告警状态但没有发送告警消息,则发送告警消息给告警模块,如果告警消息已经发送则不再发送。
9.如权利要求
4所述的对数据通道状态进行实时检测方法,其特征在于如果业务代理模块已经处于告警状态,仍然继续定时的发送检测报文,如果检测报文回收模块的定时器不超时,业务代理模块发送告警恢复消息通知告警模块。
10.如权利要求
4所述的对数据通道状态进行实时检测方法,其特征在于如果检测报文回收模块超时,业务代理模块读取相应底层数据通道相关寄存器的状态,如果底层数据通道的硬件异常,通过写寄存器或复位的方式,使系统重新正常运行。
专利摘要
本发明涉及一种对数据通道状态进行实时在线检测的系统和方法,所述检测报文发送及回收模块,通过共享内存方式和底层数据通道建立统一的接口,发送模块构造检测报文,回收模块回收检测报文;所述数据转换模块,用于检测报文的解析,通过建立的接口分拣出检测报文,发送给底层数据通道。当通道异常时实现实时告警,如果通道恢复正常时,能够实现告警的恢复。当底层数据通道出现异常时,通过分析寄存器的状态和相应统计数据,能较准确的定位出故障的具体原因,并通过写寄存器的方式进行有效的恢复,具有一定的自恢复能力。
文档编号H04L12/26GK1996898SQ200510132659
公开日2007年7月11日 申请日期2005年12月28日
发明者毕鹏飞, 钮远, 唐辉 申请人:中兴通讯股份有限公司导出引文BiBTeX, EndNote, RefMan
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1