网络设备的故障检测方法及装置的制作方法

文档序号:7648268阅读:144来源:国知局
专利名称:网络设备的故障检测方法及装置的制作方法
技术领域
本发明属于通信技术领域,尤其涉及移动通信系统中一种网络设备的故障检测方法和装置。
背景技术
第三代移动通信系统的无线接入网是用户终端与核心网之间的部分,以WCDMA系统为例,无线接入网包括无线网络控制器(RNC)和基站(NodeB),通过在RNC和NodeB上建立小区来为用户提供服务,通常一个小区覆盖一个区域,而建立一个小区需要很多资源,这些资源都建立在某些特定的物理单元上,例如单板。当系统运行较长时间时,这些单板难免会出现故障,例如单板中某个元器件引脚松动,或焊盘脱落等等,这些故障因检测手段的缺乏而不会产生相应的告警和处理,从而导致系统运行在不稳定的状况下,如小区位置更新成功率和呼叫成功率下降、掉话率升高等。
在实现本发明的过程中,发明人发现现有技术中至少存在以下问题由于小区的上行或下行的单板包括多个同一类型的单板,当其中一块单板出了问题时,很难定位到究竟是哪块单板出现了故障。现有技术是通过更换同一类型的单板来解决的。例如,当某小区呼叫成功率下降,且设备也没有检测到异常时,为了尽快恢复业务,通常要更换怀疑出现问题的一类单板,并对更换下来的单板进行观察测试,找出问题所在,如果还不能解决问题,再更换另一类型的单板。这样不但会浪费大量的时间,而且增加了物料成本,给设备供应商造成了巨大的损失。

发明内容
本发明的实施例要解决的主要问题在于,提供一种网络设备的故障检测方法与装置,以实现在网络设备运行出现异常时可以定位到具体出现故障的硬件。
本发明的实施例提供了一种网络设备的故障检测方法,该方法包括以下步骤对出现异常的小区所在网络设备的硬件资源按照呼叫成功率进行排序;根据排序结果获取所述网络设备中呼叫成功率最低的硬件资源,判断所述硬件资源的呼叫成功率是否满足网络设备的硬件告警条件,如果满足所述网络设备的硬件告警条件,则上报告警信息。
本发明的实施例还提供了一种网络设备的故障检测装置,该装置包括排序单元,用于对出现异常的小区所在网络设备的硬件资源按照呼叫成功率进行排序;第一判断单元,用于根据排序结果获取所述网络设备中呼叫成功率最低的硬件资源,判断所述硬件资源的呼叫成功率是否满足网络设备的硬件告警条件,如果满足则通知告警单元;告警单元,用于根据所述第一判断单元的通知,上报告警信息。
从以上技术方案可以看出,本发明的实施例,在小区出现异常时,通过对网络设备中的硬件资源按照呼叫成功率进行排序,根据排序的结果找出呼叫成功率最低的硬件资源,如果该硬件资源的呼叫成功率满足预设的硬件告警条件时,则上报告警信息。从而实现了在网络设备运行出现异常时可以迅速找到具体出现故障的硬件,提高了故障定位的效率,降低了运营成本。


图1为本发明实施例一中对网络设备进行故障检测的流程图;图2为本发明实施例二中对网络设备进行故障检测的流程图;图3为本发明实施例三中故障检测装置的结构示意图;图4为本发明实施例四中故障检测装置的结构示意图;图5为本发明实施例五中故障检测装置的结构示意图。
具体实施例方式
本发明的实施例提供一种网络设备的故障检测方法,对出现异常的小区所在网络设备的硬件资源按照呼叫成功率进行排序,根据排序结果获取该网络设备中呼叫成功率最低的硬件资源,如果此呼叫成功率最低的硬件资源满足该网络设备的硬件资源告警条件,则判断该硬件资源出现故障。
由于通信设备中同一类的硬件承担的业务负荷都是一样的,在出现故障时无法区分。所以在在本发明的实施例中,为了区分这些硬件,可在组建设备时由设备供应商或设备运营商对每一个网络设备、网络设备中的每一块单板乃至每一个模块或元件都进行编号,当设备出现故障时可通过这些编号来具体定位到出现故障的单板、模块或元件。由于单板、模块或元件在通信中是作为资源使用的,所以在本发明的实施例中将其统称为硬件资源。例如,对设备中的每一块单板和单板中的DSP均进行顺序编号,不同的编号就对应着一个特定单板或DSP。每个设备中的这些硬件资源编号都可以用特定的参数来进行记录,以WCDMA系统为例,将无线网络控制器(RNC)中硬件资源的编号用CRNCID来表示,基站(NodeB)中硬件资源的编号用NBCCID来表示,CRNCID和NBCCID均为协议中的参数。同理,在GSM、CDMA等其他通信系统中,也可以对其硬件资源进行编号,例如,在CDMA系统中,可以将BSC(基站控制器)中硬件资源的编号用BSCID来表示,BTS(基站)中硬件资源的编号用BTSID来表示。以上只是举例说明,在实现时可根据具体的协议来定义相关的参数。
下面以WCDMA系统为例,对具体的编号规则进行介绍,其他系统中的编号规则可以依此类推。
在WCDMA系统中不同的CRNCID根据编号规则对应RNC中不同的硬件资源单元,当硬件资源的编号只细分到单板时,则CRNCID可表示为CRNCID=单板ID(8bits);此时CRNCID就表示单板ID,例如当CRNCID的值为2时,则表示该RNC设备中的第2块单板,用户可根据需要设置CRNCID。
当对硬件资源的编号细分到每个单板使用的DSP时,则CRNCID=单板ID+DSPID;比如单板ID与DSPID分别占用一个字节,当单板ID为2,DSPID为1时,则此标识表示该RNC设备中的第2块单板上的第一个DSP。
为方便对设备中其他的模块或器件进行检测,也可在设置CRNCID时预留一个字节或多个字节,协议中一般为CRNCID预留4个字节,可以根据需要自行组合与定义,例如CRNCID=单板ID+DSPID+Reserve;上述Reserve为预留的一个或多个字节,可用于表示其他器件或模块的编号,当RNC在运行过程中检测到出现故障的CRNCID时,则可定位到CRNCID对应的某个具体的器件或模块。
以上对CRNCID的编号规则只是为了举例说明,在具体实现时并不限于上述编号规则。
NodeB对NBCCID的编号规则与RNC对CRNCID的编号规则类似,不同的NBCCID对应NodeB中不同的硬件资源单元,当对硬件资源的编号只细分到单板时,NBCCID可表示为NBCCID=单板ID;或者将单板按照处理的数据是上行还是下行来分,则NBCCID=上行单板ID+下行单板ID。
当对硬件资源的编号细分到每个单板使用的DSP时,NBCCID=单板ID+DSPID;或者将单板按照处理的数据是上行还是下行来分,则NBCCID=上行单板ID+上行DSPID+下行单板ID+下行DSPID。
也可在设置CRNCID时预留一个字节或两个字节,用于对设备中其他的模块或器件进行检测,此处将预留字节用Reserve表示,例如NBCCID=单板ID+DSPID+Reserve;或者将单板按照处理的数据是上行还是下行来分,对上行和下行的硬件资源编号分别预留一个或多个字节,对上行硬件资源编号预留的字节用Up_Reserve来表示,对下行硬件资源编号预留的字节用Down_Reserve来表示,在实际应用中也可以根据需要自行定义Up_Reserve与Down_Reserve的字节大小。以对硬件资源的编号细分到每个单板使用的DSP为例,则NBCCID=上行单板ID+上行DSPID+Up_Reserve+下行单板ID+下行DSPID+Down_Reserve。
NBCCID中每个编号用多少位或多少字节表示,可根据需求进行设置。
由于在各个系统中对硬件资源的编号都与此类似,所以为了方便介绍,下面我们将对基站中硬件资源的编号统一叫做基站ID,对基站控制器或无线网络控制器中硬件资源的编号统一叫做基站控制器ID,单板的编号叫单板ID,DSP的编号叫做DSPID等。图1是本发明实施例一对硬件资源进行故障检测的流程图,本实施例中,以对硬件资源的编号细分到单板为例,具体步骤如下步骤101在预设的时间段或者预设的周期到来时,判断小区是否出现异常。
此处判断小区是否出现异常有很多种方法,例如判断小区的掉话率是否满足预设的掉话率告警条件,如果满足预设的掉话率告警条件则判断小区出现异常。此处的掉话率告警条件可以由运营商或设备制造商根据小区的具体情况进行设置,比如将小区的CS(Circuit Switch,电路交换域)掉话率大于A%或PS(Packet Switch,分组交换域)掉话率大于B%设置为告警条件;对于既支持电路交换域又支持分组交换域的系统,将小区的CS掉话率大于A%和PS掉话率大于B%设置为告警条件;或者将同一基站的不同小区之间掉话率的差别达到C%以上,或者该小区的掉话率和前一段时间相比升高了D%以上设置为告警条件。又或者,判断小区的位置更新率是否小于预设的门限值,如果是,则判断小区出现异常。同理,还可以将其他一些话统指标作为小区是否出现异常的判断依据。图1中以小区掉话率是否满足小区告警条件来判断小区是否出现异常。
另外,由于本发明实施例是为了解决在小区出现异常时如何检测到具体出现故障的硬件的问题,所以怎样判断小区出现异常并不是本发明实施例的重点,即去掉步骤101,并不影响本发明实施例方法的实现。
本步骤中,如果判断小区没有出现异常,则根据实际需要,或者结束本次检测,或者对下一个小区执行步骤101进行检测。如果判断小区出现异常,则执行步骤102。
步骤102对出现异常的小区所在的同一个基站下的硬件资源按照呼叫成功率进行排序。
由于在设备运行过程中,基站控制器记录每次呼叫的站点编号(SiteID)、小区号(CellID)、基站ID、基站控制器ID以及呼叫成功或失败的情况,并保存。所以当某个小区出现告警时,可以根据小区对应的站点编号方便的找到该小区对应的基站,该基站的呼叫情况都在基站控制器中有相应的记录,并且每一条记录都与其硬件资源编号即基站ID相对应。
例如当对硬件资源的编号细化到单板时,按照上述介绍的编号规则,则基站ID为单板ID,此处对基站ID按照呼叫成功率进行排序,则相当于对出现异常的小区所在同一个基站下单板的呼叫成功率进行排序。上述排序并无限制,可以从高到低,也可以从低到高。
步骤103根据排序结果,找到基站中呼叫成功率最低的硬件资源,判断此硬件资源的呼叫成功率是否满足基站硬件告警条件。
此处的基站硬件告警条件可由用户根据需求进行设置,例如将呼叫成功率最低的硬件资源与呼叫成功率最高的硬件资源的呼叫成功率的差值设置为基站硬件告警条件,如果呼叫成功率最低的硬件资源与呼叫成功率最高的硬件资源相比,其呼叫成功率差值高于预设的门限值时,或者,硬件资源的呼叫成功率低于预设的门限值,则判断此硬件资源的呼叫成功率满足基站硬件告警条件。
本步骤中,如果不满足告警条件,则根据实际需要,或者结束本次检测,或者对下一个小区执行步骤101进行检测。如果满足告警条件,则执行步骤104。
步骤104向基站控制器上报告警信息。
上述告警信息中包括呼叫成功率最低的硬件资源的ID号,例如单板ID、DSPID等,本实施例中为单板ID。向基站控制器上报告警信息,可以提示用户闭塞或者更换满足预设条件的硬件资源。
另一种场景下,若在步骤103中未找出满足基站硬件告警条件的硬件资源,则还可以进一步对基站控制器中的硬件资源进行检测。即如果步骤103中呼叫成功率最低的硬件资源与呼叫成功率最高的硬件资源相比,其呼叫成功率差值低于预设的门限值时,或者该硬件资源的呼叫成功率高于预设门限值,则进入步骤105对基站控制器中的硬件资源进行检测。
步骤105基站控制器对基站控制器的硬件资源按照呼叫成功率进行排序。
例如,当对基站控制器的硬件资源的编号细化到单板时,根据上述介绍的编号规则,基站控制器ID为单板ID,对基站控制器的硬件资源按照呼叫成功率进行排序,则相当于对该基站控制器中的单板按呼叫成功率进行排序。该排序并无限制,可以从高到低,也可以从低到高。
步骤106根据排序结果找到基站控制器中呼叫成功率最低的硬件资源,判断此硬件资源的呼叫成功率是否满足基站控制器硬件告警条件,如果满足则执行步骤104向基站控制器上报告警信息;否则,结束本次检测,或者根据实际情况的需要,转入步骤101对下一个小区进行检测。
此处的基站控制器硬件告警条件可以根据需求进行设置,例如将呼叫成功率最低的硬件资源与呼叫成功率最高的硬件资源的呼叫成功率的差值设置为基站控制器硬件告警条件,如果呼叫成功率最低的硬件资源与呼叫成功率最高的硬件资源相比,其呼叫成功率差值高于预设的门限值时,则向基站控制器上报告警信息,提示用户闭塞或者更换该呼叫成功率最低的硬件资源。
上述告警信息中包括呼叫成功率最低的硬件资源的ID号,例如,单板ID或DSPID等。由于每一个硬件资源都有其对应的ID号,所以根据告警信息中硬件资源的ID号可以很快地找到出现故障的硬件资源。
由于基站中有的硬件资源用于上行呼叫,有的用于下行呼叫,所以通常在检测基站的硬件资源故障时都按照上行硬件资源和下行硬件资源来分别检测,基于此前提,本发明提出了第二实施例,如图2所示,第二实施例与第一实施例不同的之处仅仅在于对基站的硬件资源的检测方式不太一样,因此与第一实施例相同的部分在本实施例中不再详述,以先检测基站中上行硬件资源、后检测下行硬件资源的顺序为例,下面对实施例二的流程进行详细说明。
步骤201同步骤101,在预设的时间段或者预设的周期到来时,基站控制器判断小区是否出现异常;如果是,则执行步骤202A;如果否,则结束本次检测,或者根据实际情况的需要,执行步骤201开始对下一个小区进行检测。
另外,由于本发明实施例是为了解决在小区出现异常时如何检测到具体出现故障的硬件的问题,所以怎样判断小区出现异常并不是本发明实施例的重点,即去掉步骤201,并不影响本发明实施例方法的实现。
步骤202A基站控制器对出现异常的小区所在的同一个基站下上行硬件资源对应的基站ID按照呼叫成功率进行排序。
步骤202B根据排序结果找到基站中呼叫成功率最低的上行硬件资源,判断此上行硬件资源的呼叫成功率是否满足基站上行硬件资源告警条件,如果满足告警条件则向基站控制器上报告警信息,否则,转入步骤203A。
步骤203A基站控制器对出现异常的小区所在的同一个基站的下行硬件资源对应的基站ID按照呼叫成功率进行排序。
步骤203B根据排序结果找到基站中呼叫成功率最低的下行硬件资源,判断此下行硬件资源的呼叫成功率是否满足基站下行硬件资源告警条件,如果满足则执行步骤204,否则,结束本次检测,或者根据实际情况的需要,转入步骤201对下一个小区进行检测。
步骤204向基站控制器上报告警信息。
在步骤203B中如果未找出满足告警条件的硬件资源,则还可以进一步对基站控制器中的硬件资源进行检测,即转入步骤205。
步骤205基站控制器对基站控制器ID按照呼叫成功率进行排序。
步骤206判断基站控制器中呼叫成功率最低的硬件资源的呼叫成功率是否满足基站控制器硬件告警条件,如果满足基站控制器硬件告警条件则向基站控制器上报告警信息,否则,结束本次检测,或者根据实际情况的需要,转入步骤201对下一个小区进行检测。
上述告警信息中包括呼叫成功率最低的硬件资源的ID号,例如,单板ID或DSPID等。由于每一个硬件资源都有其对应的ID号,所以根据告警信息中硬件资源的ID号可以很快地找到出现故障的硬件资源。从而实现了在网络设备运行出现异常时可以迅速找到具体出现故障的硬件,提高了故障定位的效率,降低了运营成本。
在本实施例中对基站的硬件资源进行检测时,是按照先检测上行硬件资源再检测下行硬件资源的顺序,而在实际应用时也可以按照先检测下行硬件资源再检测上行硬件资源,其流程类似于实施例二中描述的流程,所以在此不再详述。
本发明的实施例还提供了一种硬件故障检测装置,此装置可设置于网络设备中,比如基站、无线网络控制器或基站控制器中,也可以独立设置。参见图3所示实施例三中网络设备故障检测装置的结构图,该装置包括排序单元11,第一判断单元12和告警单元13。
排序单元11,用于对出现异常的小区所在网络设备的硬件资源编号按照呼叫成功率进行排序;第一判断单元12,用于根据排序结果获取该网络设备中呼叫成功率最低的硬件资源,判断该硬件资源的呼叫成功率是否满足该网络设备的硬件告警条件,如果满足则通知告警单元13;告警单元13,用于根据该第一判断单元的通知,上报告警信息。
本发明的实施例还提供了第二种硬件故障检测装置,参见图4所示实施例四中网络设备故障检测装置的结构图,该装置除了包括排序单元11,第一判断单元12和告警单元13,还包括第二判断单元14,用于判断小区是否出现异常,当小区出现异常时,通知上述排序单元11对出现异常的小区所在网络设备的硬件资源按照呼叫成功率进行排序。
除此之外,本发明的实施例还提供了第三种硬件故障检测装置,参见图5所示实施例五中网络设备故障检测装置的结构图,该装置除了包括排序单元11,第一判断单元12,告警单元13和第二判断单元14外还包括存储单元15,用于存储预设的参数或告警条件,预设的参数包括用于区分网络设备的硬件资源的硬件资源编号,所述的告警条件包括小区是否出现异常的判断条件和所述网络设备的硬件资源告警条件。
上述小区是否出现异常的判断条件为如果小区的掉话率满足预设的掉话率告警条件,或小区的位置更新成功率小于预设的门限值,则判断该小区出现异常;上述网络设备的硬件告警条件为呼叫成功率最低的硬件资源与呼叫成功率最高的硬件资源相比,其呼叫成功率差值高于预设的门限值,或所述呼叫成功率最低的硬件资源的呼叫成功率低于预设的门限值。
通过上述网络设备故障检测的装置实施例,可以实现在网络设备运行出现异常时迅速找到具体出现故障的硬件,提高了故障定位的效率,降低了运营成本。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种网络设备的故障检测方法,其特征在于,所述的方法包括以下步骤对出现异常的小区所在网络设备的硬件资源按照呼叫成功率进行排序;根据排序结果获取所述网络设备中呼叫成功率最低的硬件资源,判断所述硬件资源的呼叫成功率是否满足网络设备的硬件告警条件,如果满足所述网络设备的硬件告警条件,则上报告警信息。
2.根据权利要求1所述的方法,其特征在于,在所述对出现异常的小区所在网络设备的硬件资源按照呼叫成功率进行排序之前,进一步包括判断小区是否出现异常,如果小区的掉话率满足预设的掉话率告警条件,或小区的位置更新成功率小于预设的门限值,则判断所述的小区出现异常。
3.根据权利要求2所述的方法,其特征在于,所述预设的掉话率告警条件为所述小区的电路域和/或分组域的掉话率大于预设的门限值;或所述小区的掉话率与所在基站下的其他小区的掉话率之间的差值大于预设的门限值;或所述小区当前的掉话率与前一段时间的掉话率的差值大于预设的门限值。
4.根据权利要求1所述的方法,其特征在于,当所述的网络设备为基站时,所述对网络设备的硬件资源按照呼叫成功率进行排序具体为对基站的上行硬件资源和下行硬件资源按照呼叫成功率分别进行排序;所述根据排序结果获取所述基站中呼叫成功率最低的硬件资源具体为根据排序结果获取所述基站中呼叫成功率最低的上行硬件资源或呼叫成功率最低的下行硬件资源。
5.根据权利要求1所述的方法,其特征在于,所述硬件告警条件为所述呼叫成功率最低的硬件资源与呼叫成功率最高的硬件资源相比,其呼叫成功率差值高于预设的门限值,或所述呼叫成功率最低的硬件资源的呼叫成功率低于预设的门限值。
6.根据权利要求1所述的方法,其特征在于,当所述网络设备为基站时,如果所述基站中呼叫成功率最低的硬件资源的呼叫成功率不满足基站的硬件告警条件,则该方法进一步包括步骤对出现异常的小区所在的基站控制器或无线网络控制器的硬件资源编号按照呼叫成功率进行排序;根据排序结果获取呼叫成功率最低的硬件资源,判断所述硬件资源的呼叫成功率是否满足基站控制器或无线网络控制器的硬件告警条件,如果满足所述硬件告警条件则上报告警信息。
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述硬件资源以硬件资源编号区分,所述告警信息包括所述硬件资源的编号。
8.一种网络设备的故障检测装置,其特征在于,所述的装置包括排序单元,用于对出现异常的小区所在网络设备的硬件资源按照呼叫成功率进行排序;第一判断单元,用于根据排序结果获取所述网络设备中呼叫成功率最低的硬件资源,判断所述硬件资源的呼叫成功率是否满足网络设备的硬件告警条件,如果满足则通知告警单元;告警单元,用于根据所述第一判断单元的通知,上报告警信息。
9.根据权利要求8所述的装置,其特征在于,所述的装置进一步包括第二判断单元,用于判断所述小区是否出现异常,当所述小区出现异常时,通知所述排序单元对出现异常的小区所在网络设备的硬件资源按照呼叫成功率进行排序。
10.根据权利要求8或9所述的装置,其特征在于,所述的装置进一步包括存储单元,用于存储预设的参数或告警条件,所述的参数包括用于区分网络设备的硬件资源的硬件资源编号,所述的告警条件包括小区是否出现异常的判断条件和所述网络设备的硬件告警条件;所述小区是否出现异常的判断条件为如果小区的掉话率满足预设的掉话率告警条件,或小区的位置更新成功率小于预设的门限值,则判断所述的小区出现异常;所述网络设备的硬件告警条件为所述呼叫成功率最低的硬件资源与呼叫成功率最高的硬件资源相比,其呼叫成功率差值高于预设的门限值,或所述呼叫成功率最低的硬件资源的呼叫成功率低于预设的门限值。
11.根据权利要求8或9所述的装置,其特征在于,所述的网络设备为基站、基站控制器或无线网络控制器。
全文摘要
本发明公开了一种网络设备的故障检测方法,该方法包括以下步骤对出现异常的小区所在网络设备的硬件资源按照呼叫成功率进行排序;根据排序结果获取所述网络设备中呼叫成功率最低的硬件资源,判断所述硬件资源的呼叫成功率是否满足网络设备的硬件告警条件,如果满足所述网络设备的硬件告警条件,则上报告警信息。本发明还公开了一种网络设备的故障检测装置,该装置包括第一判断单元,排序单元和告警单元。通过本发明公开的方法与装置可实现在网络设备运行出现异常时定位到具体出现故障的硬件,进而解决了在网络设备运行出现异常时对同一类单板进行更换导致成本增加的问题。
文档编号H04W24/04GK101026854SQ200710073708
公开日2007年8月29日 申请日期2007年3月28日 优先权日2007年3月28日
发明者张勇敢, 许胜洪, 汪洪源 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1