在线自诊断的方法及装置的制作方法

文档序号:7741728阅读:118来源:国知局
专利名称:在线自诊断的方法及装置的制作方法
技术领域
本发明涉及通信领域,尤其涉及在线自诊断的方法及装置。
背景技术
目前在线的诊断方法大多通过日志功能来完成的,也就是外部的中央处理器 CPU(Central Processing Unit, CPU)定时读取集成电路或芯片的内部状态, 一旦检测到内 部各功能模块功能紊乱,就将相关日志记录发送给外部的存储芯片中,供用户读取分析。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题
日志只能机械的记录信息,而不能过滤出有用的信息。

发明内容
本发明的实施例提供了在线自诊断的方法及装置,可以把发生的功能故障直接定 位到具体的功能模块,并根据功能模块的状态信息确定对应的故障原因,为用户提供了方 便。 本发明实施例提供了在线自诊断的方法,包括
接收各功能模块上报的状态信息和故障告警; 根据上报的所述故障告警遍历故障树查找故障原因,若检测到故障树中与所述故 障告警相联系的功能模块上报的所述状态信息与预定信息不符,则诊断出与所述故障告警 相联系的所述功能模块出现故障。 本发明实施例还提供了一种在线自诊断的装置,包括
接收单元,用于接收各功能模块上报的状态信息和故障告警; 遍历比较单元,根据所述接收单元上报的所述故障告警遍历故障树查找故障原 因,若检测到故障树中与所述故障告警相联系的功能模块通过所述接收单元上报的所述状 态信息与预定信息不符,则诊断出所述遍历比较单元检测到的所述故障树中与所述故障告 警相联系的所述功能模块出现故障。 由上述本发明的实施例提供的技术方案可以看出,其采用实时接收各功能模块的 状态信息,一旦发生故障告警能够通过遍历故障树诊断出故障原因,为用户提供了方便。


为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用 的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本 领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他 的附图。
图1为本发明实施例的在线自诊断的方法流程示意图; 图2为本发明实施例提供的为cpri协议LockCpriAlarm故障告警建立的故障树 的示意 图3为本发明实施例提供的接收到cpri协议LockCpriAlarm故障告警时在线自 诊断的方法流程示意图; 图4为本发明实施例接收到cpri协议LockCpriAlarm故障告警时遍历故障树的 流程示意图; 图5为本发明实施例提供的以FPGA为例的故障树的建立和维护过程示意图;
图6为本发明实施例提供的在线自诊断的装置结构示意图; 图7为本发明实施例提供的在线自诊断的装置与4个功能模块之间连接关系的示 意图。
具体实施例方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。 本发明的一个实施例提供了在线自诊断的方法,如图1所示,
步骤11、接收各功能模块上报的状态信息和故障告警。 功能模块可以是实现一个完整功能的子模块的集合,而每个子模块又可以根据功
能细分成若个的小模块,故实现这个完整功能的若干小模块的集合也是功能模块。例如,当
实现手机通过基站下载数据的功能或者实现CPRI (Common Public Radio Interface,通用
公共无线接口 )通信时,控制子模块、业务处理子模块和业务传输子模块的集合即为功能
模块,而业务传输子模块还可以至少细分为发送小模块和接收小模块,这些小模块也是实
现手机通过基站下载数据的功能或者实现CPRI通信时的功能模块的一部分。状态信息可
以包括功能模块实际运行时产生的参数或配置参数信息,具体可以包括功能模块的心跳指
示、实现特定功能时的链路层的同步指示或实现特定功能时的物理层的信号指示等显示功
能模块是否异常的关键信息,也可以包括功能模块的身份信息(用来识别各功能模块的信
息);预定信息可以包括功能模块正常运行时产生的运行参数或配置参数。 步骤12、根据上报的所述故障告警遍历故障树查找故障原因,若检测到故障树中
与所述故障告警相联系的功能模块上报的所述状态信息与预定信息不符,则诊断出与所述
故障告警相联系的所述功能模块出现故障。 遍历是按照引起故障告警的各个功能模块之间的逻辑先后关系,沿着某条搜索路 线,依次对故障树中每个节点做一次访问。遍历按照如下的原则进行,如果判断出前一节点 的功能模块引发该故障告警,则可以排除后续的节点引发该故障告警的可能性;如果前一 节点未引发该故障告警,则说明故障告警可能为后一节点所引发,需要继续检测故障告警 是否为后一节点所引起。 判断故障告警是否由一节点引起,可以根据作为节点的功能模块,正常运行时所 应当产生的状态信息,与实际运行时,所搜集到的该功能模块产生的状态信息是否相符,以 判断该功能模块是否正常。 实现一个完整功能的功能模块可以有若干个独立的故障模式,例如,实现手机下 载数据的功能时,可以存在"下载慢"故障模式或者"下载数据错误"故障模式,而每种故障模式逐层追溯根本原因都可以展开成一个故障树,故障树中各个节点的信息即故障原因, 可以分布在实现这个完整功能的功能模块中的不同的子模块里面或子模块中的小模块里 面,因此,本实施例中的故障树是根据引起故障告警的功能模块与其它功能模块的故障联 系程度建立的。 发现出现故障的功能模块之后,可以输出相关的功能模块信息,如功能模块的状 态信息,功能模块的身份信息,故障告警ID等信息。 本实施例所述的方法,采用实时接收各功能模块的状态信息,一旦发生故障告警 能够通过遍历故障树直接诊断出故障原因,为用户提供了方便。 如图2所示,图2为本发明的另一实施例给出的为cpri(Common PublicRadio Interface,通用公共无线接口 )协议的LockCpriAlarm(cpri协议上锁告警)建立的故障 树。 引起cpri协议LockCpriAlarm可能有很多原因,但与其联系最密切的应为帧损耗 模块故障和信号丢失模块故障,其次,导致帧损耗模块故障的直接原因为光功率模块故障, 导致信号丢失模块的直接故障原因为双模模式下的时钟互锁模块或单模模式下的时钟模 块故障;最后,导致双模模式下的时钟互锁模块故障的直接原因为BBU的失锁模块故障或 RRU的时钟恢复锁相环失锁模块故障或BBU的寄存器故障等。根据上述的原则,建立故障 树,其结构可如图2所示。 下面结合图2所示的cpri协议LockCpriAlarm建立的故障树,具体说明图3所示
的当cpri协议LockCpriAlarm时在线自诊断的过程 步骤31、接收各功能模块上报的状态信息和故障告警。 在本实施例中,故障告警为cpri协议LockCpriAlarm故障告警,功能模块上报的 状态信息包括光功率模块状态信息、信号丢失模块状态信息、帧损耗模块状态信息、双模 模式下的时钟互锁模块状态信息、单模模式下的时钟模块状态信息、基带处理单元(BBU, Base Band Unit)的失锁模块状态信息、射频拉远单元(RRU, Radio Remote Unit)的时钟 恢复锁相环失锁模块状态信息和BBU的寄存器状态信息等。 步骤32、根据接收到的cpri协议LockCpriAlarm故障告警遍历图2所示的故障树 查找故障原因。 作为一个示例,遍历过程可如图4所示,步骤321、检测帧损耗模块状态信息或信 号丢失模块状态信息是否与预定值不符,若信号丢失模块状态信息与预定值不符,则执行 步骤322 ;若帧损耗模块状态信息与预定值不符,则执行步骤323。 步骤322、若检测光功率模块状态信息与预定值不符,则光功率模块出现故障。
步骤323、检测双模模式下的时钟互锁模块状态信息或单模模式下的时钟模块状 态信息是否与预定值不符,若单模模式下的时钟模块状态信息与预定值不符,则单模模式 下的时钟模块出现故障;若双模模式下的时钟互锁模块状态信息与预定值不符,则执行步 骤324。 步骤324、检测BBU的失锁模块状态信息或RRU的时钟恢复锁相环失锁模块状态信 息或BBU的寄存器状态信息是否与预定值不符,若不符,则相应的模块出现故障。
进一步的,本实施例提供的方法,还可以先判断相应的故障告警是否为原始故障, 若是,则根据所述故障告警建立的故障树查找故障原因;若不是,则根据原始故障与其它功能模块的故障联系程度建立的故障树查找故障原因。 故障告警按照故障的类型,可以划分为原始故障告警和非原始故障告警,其划分 主要依据经验划分,基本原则为将对用户可见的故障列为原始故障,对用户不可见的故障 列为非原始故障。原始故障和非原始故障的划分和功能模块相关。 例如,对于一个功能模块,其子模块、或者子模块的小模块的故障,都可以引起该 功能模块的故障,因此该子模块的故障,可以划分为非原始故障,而功能模块的故障可以划 分为原始故障。 作为一个示例,传输链路不通、或者是信令流程故障,都会引起业务故障。因此,传 输链路不通告警,或者信令流程故障告警,相对于业务故障告警,都是非原始故障,而业务 故障告警则为原始故障。 再例如,若cpri协议LockCpriAlarm故障告警,但是在告警时间段中存在RRU复 位告警,那么就通过RRU复位告警建立的故障树查找故障原因,即RRU复位为原始故障。
本实施例所述的方法,采用实时接收各功能模块的状态信息,一旦发生cpri协议 LockCpriAlarm,遍历故障树,如果状态信息异常可以直接通过故障树找到故障原因,可以 把故障直接定位到具体模块,为用户提供了方便;进一步的,通过实时监控各功能模块的状 态信息,可以纳秒为单位记录监控记录,而现有技术中只能以毫秒为单位记录监控记录。
如图5所示,图5为本发明的另一实施例给出的建立故障树的方法。在本实施例 中,可以使用可编程逻辑如复杂可编程逻辑、可擦除可编程逻辑等,或者各种处理芯片,如 数字信号处理器、微处理器等,实现各个功能模块。在本实施例中,各个功能模块通过现场 可编程门阵列FPGA(Field-Programmable Gate Array))实现。从各个功能模块引出调试 接口 ,把功能模块内部的关键状态信息,如状态机,模块的心跳指示,各类异常指示(如链 路层的同步丢失,以及数据校验出错指示,物理层的信号丢失指示)等送到FPGA中在线自 诊断装置。在FPGA中,按照如下步骤建立故障树 步骤51、获取FPGA内部功能模块的身份标识信息及对应的功能; 步骤52、根据获取的FPGA内部功能模块的功能分析出由于运行参数的异常导致
FPGA内部功能模块故障的各种原因; 步骤53、将获取的FPGA内部功能模块的身份信息与分析出的故障原因对应建立 相应的故障树; 步骤54、根据FPGA内部功能模块功能的转换实时更新由于功能模块的功能转换 新增的故障原因或删除的故障原因; 步骤55、根据FPGA内部功能模块的增加或减少,相应的增加新功能模块的身份标
识信息及对应的故障原因或删除功能模块的身份标识信息及对应的故障原因。 故障树建立之后,在FPGA运行过程中,各个功能模块实时的将状态信息以及告警
故障等送到FPGA中在线自诊断装置,在线自诊断装置可以采用上述实施例提供的在线自
检测方法,根据建立的故障树查找引发故障告警的原因,定位到具体的功能模块。 进一步的,在定位到具体的功能模块之后,FPGA中的监控模块可重点监控该功能
模块的状态信息,连同故障告警的ID,一起写入告警事件缓存,记录若干条后停止记录,通
知软件进行读取;从告警事件缓存中读出相应的记录之后,就可以获知异常时间发生前后
的发生故障的功能模块的关键状态信息。
在诊断之前,可以先调整FPGA内部时钟,与外部系统时钟同步,以保证FPGA中在 线自诊断装置或FPGA中监控模块获得或监控的各功能模块的状态信息对应时间与外部系 统的时间一致,给用户在后续查看或处理时提供方便。 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以 通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质 中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁 碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random Access Memory,廳)等。 本发明的另一实施例还提供了在线自诊断的装置,如图6所示,包括 接收单元61,用于接收各功能模块上报的状态信息和故障告警; 遍历比较单元62,根据所述接收单元61上报的所述故障告警遍历故障树查找故
障原因,若检测到故障树中与所述故障告警相联系的功能模块通过所述接收单元61上报
的所述状态信息与预定信息不符,则诊断出所述遍历比较单元62检测到的所述故障树中
与所述故障告警相联系的所述功能模块出现故障。 功能模块可以是实现一个完整功能的子模块的集合,而每个子模块又可以根据功
能细分成若个的小模块,故实现这个完整功能的若干小模块的集合也是功能模块。例如,当
实现手机通过基站下载数据的功能或者实现CPRI (Common Public Radio Interface,通用
公共无线接口 )通信时,控制子模块、业务处理子模块和业务传输子模块的集合即为功能
模块,而业务传输子模块还可以至少细分为发送小模块和接收小模块,这些小模块也是实
现手机通过基站下载数据的功能或者实现CPRI通信时的功能模块的一部分。状态信息可
以包括功能模块实际运行时产生的参数或配置参数信息,具体可以包括功能模块的心跳指
示、实现特定功能时的链路层的同步指示或实现特定功能时的物理层的信号指示等显示功
能模块是否异常的关键信息,也可以包括功能模块的身份信息(用来识别各功能模块的信
息);预定信息可以包括功能模块正常运行时产生的运行参数或配置参数。 遍历是按照引起故障告警的各个功能模块之间的逻辑先后关系,沿着某条搜索路
线,依次对故障树中每个节点做一次访问。遍历按照如下的原则进行,如果判断出前一节点
的功能模块引发该故障告警,则可以排除后续的节点引发该故障告警的可能性;如果前一
节点未引发该故障告警,则说明故障告警可能为后一节点所引发,需要继续检测故障告警
是否为后一节点所引起。 判断故障告警是否由一节点引起,可以根据作为节点的功能模块,正常运行时所 应当产生的状态信息,与实际运行时,所搜集到的该功能模块产生的状态信息是否相符,以 判断该功能模块是否正常。 实现一个完整功能的功能模块可以有若干个独立的故障模式,例如,实现手机下 载数据的功能时,可以存在"下载慢"故障模式或者"下载数据错误"故障模式,而每种故障 模式逐层追溯根本原因都可以展开成一个故障树,故障树中各个节点的信息即故障原因, 可以分布在实现这个完整功能的功能模块中的不同的子模块里面或子模块中的小模块里 面,因此,本实施例中的故障树是根据引起故障告警的功能模块与其它功能模块的故障联 系程度建立的。 发现出现故障的功能模块之后,可以输出相关的功能模块信息,如功能模块的状
7态信息,功能模块的身份信息,故障告警ID等信息。
进一步的,上述装置中,还可以包括, 原始故障判断单元,用于判断所述接收单元接收到的所述故障告警是否是原始故 障,若是,则根据所述故障告警建立的故障树查找故障原因;若不是,则根据所述原始故障 建立的故障树查找故障原因。 故障告警按照故障的类型,可以划分为原始故障告警和非原始故障告警,其划分 主要依据经验划分,基本原则为将对用户可见的故障列为原始故障,对用户不可见的故障 列为非原始故障。原始故障和非原始故障的划分和功能模块相关。 例如,对于一个功能模块,其子模块、或者子模块的小模块的故障,都可以引起该 功能模块的故障,因此该子模块的故障,可以划分为非原始故障,而功能模块的故障可以划 分为原始故障。 作为一个示例,传输链路不通、或者是信令流程故障,都会引起业务故障。因此,传 输链路不通告警,或者信令流程故障告警,相对于业务故障告警,都是非原始故障,而业务 故障告警则为原始故障。 再例如,若cpri协议LockCpriAlarm故障告警,但是在告警时间段中存在RRU复 位告警,那么就通过RRU复位告警建立的故障树查找故障原因,即RRU复位为原始故障。
采用实时接收各功能模块的状态信息,一旦发生故障告警能够通过遍历故障树直 接诊断出故障原因,为用户提供了方便。 本发明的另一实施例,还提供了上述在线自诊断装置的一种应用场景。如图7所 示,在本实施例中,可以使用可编程逻辑如复杂可编程逻辑、可擦除可编程逻辑等,或者各 种处理芯片,如数字信号处理器、微处理器等,实现各个功能模块。各个功能模块通过上述 在线自诊断的装置实现,从各个功能模块引出的调试接口 ,把功能模块内部的关键状态信 息,如状态机,模块的心跳指示,各类异常指示(如链路层的同步丢失,以及数据校验出错 指示,物理层的信号丢失指示)等送到在线自诊断的装置的接收单元61,在接收单元61中 建立故障树,例如,FPGA建立故障树的过程。也可以从各个功能模块弓I出的调试接口 ,把功 能模块的故障告警送到在线自诊断的装置的接收模块61,然后,通过遍历比较单元62根据 接收到的所述故障告警遍历建立的故障树查找故障原因。并且在诊断之前,可以先调整在 线自诊断的装置内部时钟,与外部系统时钟同步,以保证接收单元61获得的各功能模块的 状态信息对应时间与外部系统的时间一致,给用户在后续查看或处理时提供方便。
上述装置中包含的各模块的处理功能的具体实现方式在之前的方法实施例中已 经描述,在此不再重复描述。 本发明实施例所述的方法及装置,采用实时接收各功能模块的状态信息,一旦发 生故障告警能够通过遍历故障树直接诊断出故障原因,为用户提供了方便,特别是通过 FPGA内部实时监控各模块的状态信息,可以做到单位为纳秒的监控记录,而现有技术中通 过CPU的记录只能以毫秒为单位;并且一旦状态信息异常可以直接通过故障树找到故障原 因,这样把FPGA内部发生的故障原因直接定位到了具体模块。 本发明实施例所述的方法和装置还可以用在ASIC(A卯lication Specificlntergrated Circuit,专用集成电路)中进行故障自诊断,比软件更精确的记录 芯片内部各模块的状态信息并及时获知故障原因。
以上所述,仅为本发明较佳的具体实施方式
,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换, 都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围 为准。
权利要求
在线自诊断的方法,其特征在于,包括接收各功能模块上报的状态信息和故障告警;根据上报的所述故障告警遍历故障树查找故障原因,若检测到故障树中与所述故障告警相联系的功能模块上报的所述状态信息与预定信息不符,则诊断出与所述故障告警相联系的所述功能模块出现故障。
2. 根据权利要求1所述方法,其特征在于,还包括若所述故障告警是原始故障,则根据所述故障告警建立的故障树查找故障原因;若所 述故障告警不是原始故障,则根据所述故障告警的原始故障建立的故障树查找故障原因。
3. 根据权利要求1或2所述的方法,其特征在于,所述故障树是根据引起所述故障告警 的所述功能模块之间的联系程度建立的。
4. 根据权利要求1所述的方法,其特征在于,所述状态信息包括所述功能模块实际运 行时产生的运行参数或配置参数信息;所述预定信息包括所述功能模块正常运行时产生的 运行参数或配置参数。
5. 根据权利要求1所述的方法,其特征在于,所述状态信息具体包括功能模块的心跳 指示、链路层的同步指示或物理层的信号指示。
6. 在线自诊断的装置,其特征在于,包括接收单元,用于接收各功能模块上报的状态信息和故障告警;遍历比较单元,根据所述接收单元上报的所述故障告警遍历故障树查找故障原因,若 检测到故障树中与所述故障告警相联系的功能模块通过所述接收单元上报的所述状态信 息与预定信息不符,则诊断出所述遍历比较单元检测到的所述故障树中与所述故障告警相 联系的所述功能模块出现故障。
7. 根据权利要求6所述的装置,其特征在于,还包括原始故障判断单元,用于判断所述接收单元接收到的所述故障告警是否是原始故障, 若是原始故障,则根据所述故障告警建立的故障树查找故障原因;若不是原始故障,则根据 所述故障告警的原始故障建立的故障树查找故障原因。
8. 根据权利要求6或7所述的装置,其特征在于,所述遍历比较单元和原始故障判断单 元中所述的故障树是根据引起所述故障告警的所述功能模块之间的联系程度建立的。
9. 根据权利要求7所述的装置,其特征在于,包括,所述接收单元接收到的所述状态信息包括所述功能模块实际运行时产生的运行参数 或配置参数信息;所述遍历比较单元中所述的预定信息包括所述功能模块正常运行时产生 的运行参数或配置参数。
10. 根据权利要求6所述的装置,其特征在于,所述接收单元接收到的所述状态信息具 体包括功能模块的心跳指示、链路层的同步指示或物理层的信号指示。
全文摘要
在线自诊断的方法及装置,首先,接收各功能模块上报的状态信息和故障告警,然后,根据上报的所述故障告警遍历故障树查找故障原因,若检测到故障树中与所述故障告警相联系的功能模块上报的所述状态信息与预定信息不符,则诊断出与所述故障告警相联系的所述功能模块出现故障。本发明实施例采用实时接收各功能模块的状态信息,一旦发生故障告警能够通过遍历故障树直接诊断出故障原因,为用户提供了方便。
文档编号H04W24/00GK101742540SQ20101010813
公开日2010年6月16日 申请日期2010年2月5日 优先权日2010年2月5日
发明者周建勋 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1