一种对网管系统故障进行远程诊断定位的方法及其系统的制作方法

文档序号:7665624阅读:138来源:国知局
专利名称:一种对网管系统故障进行远程诊断定位的方法及其系统的制作方法
技术领域
本发明涉及光通讯领域的测试技术,特别是涉及一种对网管系统故障进行 远程诊断定位的方法及其系统。
背景技术
随着电信业务的不断扩大,网络管理系统(简称网管系统/网管)的使用 也相应增加。在网管系统所实现的功能不断创新与成熟中,各种问题也随之而 来。过去的网管系统具有管理范围单一,管理网元数目少,实现的功能简单等 特点,即使出现问题,也比较容易定位,容易解决。但是随着网络规模的扩大, 市场中使用的网管系统数量增加,单个网管系统管理的网元数据也渐渐增多, 网管系统使用过程中,经常会出现一些新的问题;使用的网管系统数量增加以 后,操作的人员增多,加大了问题暴露的几率;有些运营系统维护网管系统的 人员增多也不可避免的导致一些操作上的误差,引入了非故障的错误操作;另 外,单个网管系统管理的网元数量的增加,也会引入内存使用、数据库等效率 方面的问题。
上述几个因素引发的问题,有些问题网管系统使用者无法自行解决,必须 由专业技术人员进行分析定位。 一方面,专业技术人员不可能每时每刻都在每 个工程现场;另一方面,依靠大量的工程维护人员对网管系统进行现场诊断, 存在周期长,成本高,效率低的问题。因此,有必要提供一种远程故障定位系 统,帮助专业技术人员在本地即可分析、定位和解决出现的问题。
专利号为02141738的中国专利文件中,介绍了一种通讯系统故障诊断方 法和系统,其中包括了故障申报、故障定位、故障解决几部分过程,通过以上 过程来对故障进行诊断以解决网络中存在的问题,但该专利文件仅是针对网络 通讯的故障进行诊断,并不能针对网管系统的故障进行诊断,因此有必要提出 一种网管系统的故障进行诊断的方法或系统。

发明内容
本发明所要解决的技术问题在于提供一种对网管系统故障进行远程诊断 定位的方法及其系统,用于解决现有技术中出现的由于大量工程维护人员对网 管系统进行现场诊断导致的周期长、成本高、效率低的缺点,以及解决一些需 要专业技术人员才能分析定位的故障。
为了实现上述目的,本发明提供了一种对网管系统故障进行远程诊断定位 的方法,其特征在于,包括
故障信息采集歩骤,用于实时监控所述网管系统的运行状态,采集所述网 管系统的故障信息;
故障诊断定位歩骤,用于对所述故障信息进行数据分析,诊断并定位故障, 将得到的故障诊断定位结果反馈给所述网管系统。
所述的对网管系统故障进行远程诊断定位的方法,其中,所述故障信息采 集步骤中,进一步包括
以信息定时采集方式,或在所述网管系统出现故障时进行信息采集的方式 采集所述故障信息的步骤。
所述的对网管系统故障进行远程诊断定位的方法,其中,所述故障信息采 集歩骤中,进一歩包括
通过远程连接方式或邮件方式将所述故障信息发送至所述故障诊断定位 步骤的步骤。
所述的对网管系统故障进行远程诊断定位的方法,其中,所述故障诊断定 位步骤中,进一步包括
所述网管系统根据所述故障诊断定位结果排除故障的步骤。
为了实现上述目的,本发明还提供了一种对网管系统故障进行远程诊断定 位的系统,其特征在于,包括
信息采集模块,设置于所述网管系统上,用于实时监控所述网管系统的运 行状态,采集所述网管系统的故障信息;
信息分析中心,连接所述信息采集模块,用于接收所述信息采集模块发送 的所述故障信息,对所述故障信息进行数据分析,诊断并定位故障,将得到的 故障诊断定位结果反馈给所述网管系统。
所述的对网管系统故障进行远程诊断定位的系统,其中,所述故障信息包
括网管配置数据备份信息、网元之间的通讯信息、PC机运行信息、网管子 系统参数信息、报表信息中的一项或多项。
所述的对网管系统故障进行远程诊断定位的系统,其中,所述信息采集模 块以信息定时采集方式,或在所述网管系统出现故障时进行信息采集的方式采 集所述故障信息。
所述的对网管系统故障进行远程诊断定位的系统,其中,所述信息采集模 块在所述网管系统启动时自动启动,或在所述网管系统启动后根据需要进行控 制启动。
所述的对网管系统故障进行远程诊断定位的系统,其中,所述信息采集模 块通过与所述信息分析中心之间的远程连接或邮件将所述故障信息发送给所 述信息分析中心。
所述的对网管系统故障进行远程诊断定位的系统,其中,所述故障诊断定 位结果包括问题诊断说明文档、解决说明文档。 本发明的有益技术效果
与现有技术相比,本发明提供的一种用于对网管系统故障进行远程诊断定 位的方法及其系统,克服了网管系统维护人员必须到事故现场收集数据、解决 问题的缺点,提高了故障解决效率,节省了投入到网管系统维护中的经济成本。
另外,故障远程自动搜集信息,统一解决问题的方式,减少了重复性故障 的解决次数,在开发人员统一解决故障的同时,总结经验教训,提高了后续网 管系统的质量。
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的 限定。


图1为本发明对网管系统故障进行远程诊断定位的总体架构图2为本发明对网管系统故障进行远程诊断定位的方法流程图3为本发明的远程故障诊断定位实施例的方法流程图。
具体实施例方式
下面结合附图和具体实施方式
对本发明的技术方案作进一步更详细的描述。
如图l所示,为本发明对网管系统故障进行远程诊断定位的总体架构图。 该图中给了对网管系统故障进行远程诊断定位的远程诊断定位系统100的总 体架构,该系统100包括信息采集模块IO、信息分析中心20。
信息采集模块10设置网管系统30上,用于采集、保存、发送网管系统 30以及运行环境等参数信息。信息采集模块IO对信息的采集可以灵活控制, 可以设置为定时采集信息,也可以设置为只在出现故障的时候采集需要的信 息。
信息采集模块10采集的信息是指所有对故障诊断具有参考价值的内容,
包括但不限于网管配置数据备份信息、网元之间的通讯信息、PC机运行信
息、网管子系统参数信息、报表信息。
1) 网管配置数据备份信息,用于信息分析中心在定位问题时,搭建相似
的网络环境;
2) 网元之间的通讯信息,用于判断网元之间的通讯是否正常;
3) PC机运行信息,用于判断网管系统所在操作系统的运行情况;获取各 种进程的内存使用以及CPU占用情况,并予以保存;
4) 网管子系统参数信息,用于根据各网管子系统的详细信息,获取网管 子系统运行情况,判断网管系统内部是否运行正常;
5) 报表信息,用于分析最近一段时间内的各种历史数据,根据这些历史
数据判断网管系统出现问题的开始时间、问题来源。
信息分析中心20,连接信息采集模块IO,获取信息采集模块10采集的故 障信息,对故障信息进行数据分析,得到故障诊断定位信息或故障诊断定位结 果,并将其反馈给网管系统30。
如图2所示,为本发明对网管系统故障进行远程诊断定位的方法流程图。 该方法流程包括如下步骤
步骤S201,在网管系统30中,设置信息采集模块IO。
步骤S202,启动信息采集模块IO,实时监控网管系统30的运行状态。
进一步地,该歩骤包括以下分步骤
al)启动信息采集模块10;
信息采集模块10可以在网管系统30启动时自动启动,也可以在网管系统30启动后,根据需要由网管操作人员手工控制启动;
a2)信息采集模块10对网管系统30的运行状态进行实时监控,根据信息 采集设定方式完成对网管系统30以及运行环境等数据的采集和保存。
步骤S203,信息采集模块10将采集的故障信息发送给信息分析中心20。
该步骤中,信息采集模块10在采集到故障信息后,与信息分析中心20 建立远程连接,将采集的故障信息传送给信息分析中心20。或者,以邮件的 方式,将采集到的故障信息发送到信息分析中心20。
步骤S204,信息分析中心20对故障信息进行数据分析,诊断并定位故障, 得到故障诊断定位信息。
进一步地,该步骤包括以下分步骤
bl)分析网元之间的通讯信息,判断网元之间的通讯是否正常; b2)分析PC机运行信息,包括但不限于各种进程的内存使用、CPU占用 情况;
b3)分析网管各子系统参数,根据各子系统详细的信息,获取网管子系统 运行情况,判断网管系统30内部是否运行正常;
b4)分析报表信息,包括最近一段时间的告警信息、操作日志等。根据这 些历史信息来判断网管系统30出现问题的开始时间、问题来源;
b5)根据网管配置数据备份信息,搭建相似的网络环境,模拟网管系统
30运行;
b6)综合上述分析,找出故障点和导致的原因。
步骤S205,信息分析中心20将故障诊断定位信息反馈给网管系统30。 如图3所示,为本发明的远程故障诊断定位实施例的方法流程图。该图是 以一个网元管理系统为例,说明本发明实现方案的具体工作过程。本实施例中 的故障原因是DCN网络中的某个网元控制板出现内存碎片后,引发的网元脱 管问题。
由于现场的某个网元经常出现脱管问题,每次复位网元控制板以后,可正 常工作一段时间,然后又会脱管,无法找到原因,所以现场操作人员手工启动 了信息采集模块IO。启动后,信息采集模块10开始收集信息,然后发送给信 息分析中心20来处理。信息分析中心20将分析的结果发送回DCN (Digital Communication Network,数字通f言网)网络,协助解决问题。
结合图l、 2,该实施例的方法流程具体包括如下步骤
步骤S301,在网管系统30中,设置信息采集模块IO。
该步骤中,安装网管系统30时,同时安装信息采集模块10,并在信息采
集模块10中,设置采集如下信息
Cl)网管配置数据备份信息;
C2)网元之间的通讯信息;
c3) PC机运行状态参数,包括当前总的内存使用情况、各进程的内存使 用情况、当前CPU使用情况、各进程的线程句柄数、GDI句柄数;
C4)网管子系统参数信息;
C5)网管配置报表、告警数据报表、性能数据报表、操作日志报表;
c6)设置为只在出现故障的时候采集需要的信息。
步骤S302,启动信息采集模块IO,实时监控网管系统30的运行状态。
在实施例中,现场维护人员没有在安装网管系统30之后马上启动信息采 集模块10,在发现某网元经常脱管问题后,启动了信息采集模块10。信息采 集模块10启动后,开始采集信息。
cl')网管系统30自动备份网管系统30的当前配置数据,包括所有网元 的配置信息,以及网管系统30的一些设置。
自动备份功能启动以后,判断网管系统30的备份功能正常运行,所以采 取了立即备份的方式,备份了当前配置数据;
c2')自动采集网元之间的通讯信息。
信息采集模块10通过Tdnet的方式,登陆到与DCN直接相连的网元控 制板中,获取脱管网元的相关路由信息,并以文本文件的形式保存到指定位置;
c3')采集PC机运行状态参数,包括当前总的内存使用情况、各进程的内 存使用情况、当前CPU使用情况、各进程的线程句柄数、GDI (Graphics Device Interface,图形设备接口)句柄数,并保存;
c4')信息采集模块10自动打开网管系统30的调试开关,获取网管参数 信息,然后再自动关闭调试信息。
用一个调试开关来控制打印各模块、各子系统的参数信息,调试开关打开 以后,获取网管系统30自动生成的一些日志文件,日志中记录了各个模块之 间的交互信息,各模块自身的运行情况。还包括了所有网元的网元控制板内存
使用情况,复位记录等相关信息;
C5')自动备份报表信息,将网管数据库中还没有及时备份的历史数据进 行备份到磁盘的操作。其中,历史告警数据用来判断网元的运行情况,操作日
志用来査看网管系统30对网元的操作记录,以及其他一些类型的历史数据。
此时,所有故障定位相关信息已经收集完成。
歩骤S303,信息采集模块10将采集的故障信息发送给信息分析中心20。
该步骤中,信息采集模块10在采集到故障信息后,与信息分析中心20 建立远程连接,将采集的信息传送给信息分析中心20。
该歩骤中,网管系统30以邮件的方式,将信息采集模块10采集到的故障 信息发送给信息分析中心20。
步骤S304,信息分析中心20对接收的故障信息进行数据分析,诊断并定 位故障,得到故障诊断定位信息。
该步骤中,信息分析中心20接收到网管系统30发送的邮件后,开始进行 数据分析。首先根据报表信息中的系统运行日志分析故障现象。从系统运行日 志的网元接入事件可以得知其中一个网元频繁的脱管,针对这个问题开始分 析。
dl)分析网元之间的通讯信息,根据路由信息分析网元之间的ECC (Embedded Control Channel,嵌入式控制通道)通道是否正常。判断网元控 制板的路由信息,没有异常记录。
d2)分析PC机运行信息。此故障没有引起PC机各参数的异常,说明网 管系统30没有异常模块。
d3)分析网管各子系统参数,判断网管各子系统运行状态。网管系统30 打开调试开关,获取网管系统30与网元之间的一些参数信息。从获取的信息 中发现,脱管网元的网元控制板的内存即将耗尽。使用内存分析工具得知,内 存耗尽是内存碎片过多导致。
d4)分析报表信息,査看出现故障前网管系统30上记录的告警、性能、 业务的工作情况以及用户所作的操作。由这些信息反映出,网元的业务工作一 直没有受到影响,没有业务相关告警产生,判断出业务单板的运行是正常的。
d5)根据网管配置数据备份信息,査看网元之间的连接、业务流向,搭建 相似的网络环境,模拟网管系统30运行;恢复数据以后,察看故障网元与周围网元的组网方式,配合第l个获取的路由信息分析,网络运行正常网元的脱 管没有影响到ECC通道的通讯连接。
d6)综合上述分析,根据网元的脱管记录和NCP (Network Control Processor,网络控制处理器)的内存使用情况,找出故障点和导致的原因,网 元控制板上的内存碎片导致了网元控制板的内存耗尽,进而引发网元脱管。
解决上述问题的方法采用加大内存,或者修改内存使用方式,进行碎片整 理,或者定期复位等等。
根据故障按照发生的现象,将此问题归类为网元脱管问题。问题分析完成 后,由相关技术人员完成问题诊断说明文档及解决说明文档,保存到问题库中, 以备下次直接调用。
步骤S305,信息分析中心20将故障诊断定位信息反馈给网管系统30。
该步骤中,信息分析中心20将故障诊断定位信息,如问题诊断说明文档 和解决说明文档以附件的方式回复网管系统30发送的邮件。出现问题的网管 系统30根据回复邮件中的解决办法排除问题。
本发明提供了一种用于对网管系统故障进行远程诊断定位的方法,以解决 市场中出现的由于大量工程维护人员对网管系统进行现场诊断导致的周期长、 成本高、效率低的缺点,以及解决一些需要专业技术人员才能分析定位的故障。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情 况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但 这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
权利要求
1、一种对网管系统故障进行远程诊断定位的方法,其特征在于,包括故障信息采集步骤,用于实时监控所述网管系统的运行状态,采集所述网管系统的故障信息;故障诊断定位步骤,用于对所述故障信息进行数据分析,诊断并定位故障,将得到的故障诊断定位结果反馈给所述网管系统。
2、 根据权利要求1所述的对网管系统故障进行远程诊断定位的方法,其 特征在于,所述故障信息采集步骤中,进-一步包括以信息定时采集方式,或在所述网管系统出现故障时进行信息采集的方式 采集所述故障信息的步骤。
3、 根据权利要求1或2所述的对网管系统故障进行远程诊断定位的方法, 其特征在于,所述故障信息采集步骤中,进一步包括通过远程连接方式或邮件方式将所述故障信息发送至所述故障诊断定位 步骤的步骤。
4、 根据权利要求1或2所述的对网管系统故障进行远程诊断定位的方法, 其特征在于,所述故障诊断定位步骤中,进一步包括所述网管系统根据所述故障诊断定位结果排除故障的步骤。
5、 一种对网管系统故障进行远程诊断定位的系统,其特征在于,包括 信息采集模块,设置于所述网管系统上,用于实时监控所述网管系统的运行状态,采集所述网管系统的故障信息;信息分析中心,连接所述信息采集模块,用于接收所述信息采集模块发送 的所述故障信息,对所述故障信息进行数据分析,诊断并定位故障,将得到的 故障诊断定位结果反馈给所述网管系统。
6、 根据权利要求5所述的对网管系统故障进行远程诊断定位的系统,其 特征在于,所述故障信息包括网管配置数据备份信息、网元之间的通讯信息、 PC机运行信息、网管子系统参数信息、报表信息中的一项或多项。
7、 根据权利要求5所述的对网管系统故障进行远程诊断定位的系统,其 特征在于,所述信息采集模块以信息定时采集方式,或在所述网管系统出现故 障时进行信息采集的方式采集所述故障信息。
8、 根据权利要求5、 6或7所述的对网管系统故障进行远程诊断定位的系统,其特征在于,所述信息采集模块在所述网管系统启动时自动启动,或在所 述网管系统启动后根据需要进行控制启动。
9、 根据权利要求5、 6或7所述的对网管系统故障进行远程诊断定位的系 统,其特征在于,所述信息采集模块通过与所述信息分析中心之间的远程连接 或邮件将所述故障信息发送给所述信息分析中心。
10、 根据权利要求5、 6或7所述的对网管系统故障进行远程诊断定位的 系统,其特征在于,所述故障诊断定位结果包括问题诊断说明文档、解决说明 文档。
全文摘要
本发明公开了一种对网管系统故障进行远程诊断定位的方法及其系统,其中该方法包括故障信息采集步骤,用于实时监控所述网管系统的运行状态,采集所述网管系统的故障信息;故障诊断定位步骤,用于对所述故障信息进行数据分析,诊断并定位故障,将得到的故障诊断定位结果反馈给所述网管系统。本发明克服了网管系统维护人员必须到事故现场收集数据、解决问题的缺点,提高了故障解决效率,节省了投入到网管系统维护中的经济成本。减少了重复性故障的解决次数,在开发人员统一解决故障的同时,总结经验教训,提高了后续网管系统的质量。
文档编号H04B10/08GK101197621SQ200710179019
公开日2008年6月11日 申请日期2007年12月7日 优先权日2007年12月7日
发明者红 喻, 赵贵余 申请人:中兴通讯股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1