一种网管系统中网络故障定位的方法及装置制造方法

文档序号:7997468阅读:293来源:国知局
一种网管系统中网络故障定位的方法及装置制造方法
【专利摘要】本发明公开了一种网管系统中网络故障定位的实现方法及装置,其中,方法包括:网管侧查询诊断对象的所有告警,进行告警相关性分析,找出根源告警;根据根源告警类型,进行相关项目的分析,定位引发故障的节点。装置包括:根源告警分析模块,用于查询诊断对象的告警,并找出根源告警;故障原因查找模块,用于根据根源告警类型,进行相关项目的分析,定位引发故障的节点。本发明在网络出现故障时,可以自动定位及解决大部分常见问题,提高现场故障处理能力,降低维护人员的劳动强度。
【专利说明】-种网管系统中网络故障定位的方法及装置

【技术领域】
[0001] 本发明涉及通信【技术领域】,尤其涉及一种网管系统中关于网络故障定位的实现方 法及系统。

【背景技术】
[0002] 现有的技术较为成熟的网络的故障诊断主要依靠工程技术人员的经验,借助于查 询设备的网络配置信息等基本手段,通过人工分析完成,例如传统的MSTP (Multi-Service Transfer Platform,多业务传送平台)的故障诊断。但目前新兴的PTN(Packet Transport Network,分组传送网)相对MSTP这类成熟网络而言还是一种新型网络,而且涉及的业务较 为复杂,通过人工进行故障诊断存在着对运维人员的技能要求很高、故障定位效率低下、存 在诸多不确定性等问题,对PTN网络的运维带来较大的困难。


【发明内容】

[0003] 鉴于上述的分析,本发明旨在提供一种应用于网管系统中能够对网络故障进行智 能定位的实现方法及装置,用以解决现有技术中网络故障定位主要依靠人工、定位效率不 高的问题。
[0004] 本发明的目的主要是通过以下技术方案实现的:
[0005] 本发明提供了一种网管系统中网络故障定位的方法,包括:
[0006] 网管侧查询诊断对象的所有告警,进行告警相关性分析,找出一个或多个根源告 警;
[0007] 根据根源告警的类型进行相关项目的分析,并根据分析结果定位引发故障的节 点。
[0008] 进一步地,所述根据根源告警的类型进行相关项目分析的步骤包括以下项目 中的一项或多项:配置数据分析,性能数据分析,0AM (Operation Administration and Maintenance,操作管理与维护)检测分析,设备状态查询和/或设备底层自检。
[0009] 进一步地,所述网络故障定位的故障类型至少包括0ΑΜ故障、业务故障和DCN (Data Communication Network,数据通信网络)故障中的一种或多种;其中,所述0ΑΜ故 障的诊断对象包括:隧道业务或伪线业务;所述业务故障的诊断对象包括CES (Circuit Emulation Service,电路仿真业务)业务或ΕΤΗ (Ethernet,以太网)业务。
[0010] 进一步地,所述配置数据分析的内容至少包括:业务数据的一致性、业务完整性、 数据配置的合法性中的一项或多项;
[0011] 所述性能数据分析的内容至少包括:光功率性能越限项、收发包数性能项、收发字 节数性能项、错报丢包数据中的一项或多项;
[0012] 所述0ΑΜ检测分析的项目至少包括:环回检测LB和/或链路追踪LT ;
[0013] 所述设备状态查询和/或设备底层自检的检查对象至少包括:设备内部驱动、转 发面和寄存器中的一项或多项。
[0014] 进一步地,所述方法还包括:
[0015] 当找出故障原因时,根据故障原因,索引工程案例库,根据索引结果,给出故障解 决建议和操作指导。
[0016] 本发明提供了一种网管系统中网络故障定位的装置,包括:
[0017] 根源告警分析模块,用于查询诊断对象的所有告警,进行告警相关性分析,找出一 个或多个根源告警;
[0018] 故障定位模块,用于根据根源告警的类型,进行相关项目的分析,根据分析结果定 位引发故障的节点。
[0019] 进一步地,所述故障定位模块进行的相关项目分析具体包括以下项目中的一项或 多项:配置数据分析,性能数据分析,0ΑΜ检测分析,设备状态查询和/或设备底层自检。
[0020] 进一步地,所述装置定位的故障类型至少包括0ΑΜ故障、业务故障和DCN故障中的 一种或多种;其中,所述0ΑΜ故障的诊断对象包括:隧道业务或伪线业务;所述业务故障的 诊断对象包括CES业务或ΕΤΗ业务。
[0021] 进一步地,所述故障定位模块进行的配置数据分析的内容至少包括:业务数据的 一致性、业务完整性、数据配置的合法性中的一项或多项;
[0022] 所述故障定位模块进行的性能数据分析的内容至少包括:光功率性能越限项、收 发包数性能项、收发字节数性能项、错报丢包数据中的一项或多项;
[0023] 所述故障定位模块进行的0ΑΜ检测分析的项目至少包括:环回检测LB和/或链路 追踪LT ;
[0024] 所述故障定位模块进行的设备状态查询和/或设备底层自检的检查对象至少包 括:设备内部驱动、转发面和寄存器中的一项或多项。
[0025] 进一步地,所述装置还包括:故障解决建议模块,用于当找出故障原因时,根据故 障原因,索引工程案例库,根据索引结果,给出故障解决建议和操作指导。
[0026] 本发明有益效果如下:
[0027] 本发明在网络出现故障时,能够综合利用告警相关性分析、配置数据分析、性能数 据分析、0ΑΜ检测、设备状态查询等故障检测手段,进行故障定位;在工程上发生故障时,利 用本发明上述技术方案可以自动定位及解决大部分常见问题,从而大大提高现场故障处理 能力,缩短故障解决时间,降低维护人员的劳动强度。

【专利附图】

【附图说明】
[0028] 图1为本发明的第一种方法实施例的流程示意图;
[0029] 图2为本发明的第二种方法实施例中进行0ΑΜ故障智能定位的流程示意图;
[0030] 图3为本发明的装置实施例的结构示意图。

【具体实施方式】
[0031] 下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并 与本发明的实施例一起用于阐释本发明的原理。
[0032] 首先结合附图1到2对本发明的优选方法实施例进行详细说明。
[0033] 第一方法实施例
[0034] 如图1所示,图1为第一方法实施例的流程示意图,涉及一种网管系统中网络故障 智能定位的实现方法。
[0035] 本实施例能够进行定位的网络故障至少包括0ΑΜ故障、业务故障和数据通信网络 DCN故障;其中,0ΑΜ故障的诊断对象包括:隧道业务、伪线业务,业务故障的诊断对象包括: 电路仿真业务CES业务、以太网ΕΤΗ业务。
[0036] 参照图1,本实施例中进行网络故障智能定位的实现方法具体如下:
[0037] S101 :网管侧查询诊断对象的所有告警,进行告警相关性分析,找出一个或多个根 源告警。其中,告警相关性分析是网管系统中一项重要且常见的功能,主要是基于告警关联 规则实现的。本实施例中,可以利用网管系统中已有的告警相关性分析模块的分析结果,找 出根源告警。
[0038] S102:根据根源告警的类型进行相关项目的分析,根据分析结果定位引发故障的 节点。本实施例中,所进行的相关项目分析具体包括:配置数据分析、性能数据分析、0ΑΜ检 测、设备状态查询和/或设备底层自检。
[0039] 第二方法实施例
[0040] 以ΡΤΝ网络中对0ΑΜ故障进行智能定位的实现方法为实施例,对本方法发明进一 步说明。事实上,本发明提供的故障定位方案不仅适用于ΡΤΝ网络,也可适用于传统的MSTP 网络。
[0041] 本实施例中,网管上存在端到端的隧道业务,隧道上配置了 0ΑΜ,该业务存在 TMP-L0C (TMPLSpath-Loss of Connectivity,传送多协议标记交换通道-连通性丢失)告 警以及其他的一些告警,如AIS (Alarm Indicator Signal,告警指示信号)等。
[0042] 如图2所示,图2中示出了本发明的一种实施例中进行0ΑΜ故障智能定位的流程 示意图,具体操作步骤如下:
[0043] S201 :用户选择需要定位的故障类型为0ΑΜ故障,具体诊断对象为隧道业务,启动 故障智能定位功能。
[0044] S202:根据用户选择的隧道业务,从网管系统的告警模块查询出该隧道业务相关 的告警,并扩展至所有承载业务的服务层的相关告警;针对这些告警,进行告警相关性分 析,分析出根源告警和衍生告警。
[0045] 本示例分析出的根源告警为TMP-L0C。对于TMP-L0C告警,进行如下项目的检查, 以进行故障定位:
[0046] S203 :检查隧道相关的配置数据是否合理,具体包括:
[0047] S2031 :检查伪线隧道信息是否完整:如果完整,继续下一步检查S2032 ;如果不完 整,则给出隧道/伪线信息不完整的提示,转入步骤S207。
[0048] S2032 :检测两端的MEG (Maintenance Entity Group,管理实体组)配置是否正 确:是否绑定同一条隧道;MEG是否配置;MEG ID是否一致;是否都开启CV (Connectivity Verification,连通性检验)检测;CC (Connect Confirm,连接确认)是否都使能;其中,如 果任一项判断为否,转入步骤207 ;如果全都为是,则继续下一步检查S2033。
[0049] S2033 :检查 VLAN (Virtual Local Area Network,虚拟局域网)配置是否正确:检 查VLAN是否为干线模式;检查VLAN两端的TAG (标签)状态是否一致。检查方法:通过隧 道的AZ (A端和Z端网元)点的隧道断点的下一跳IP等来进行检查。检测结果:如果任一 项判断为否,转入步骤S207 ;如果全都为是,则继续下一步检查S2034。
[0050] S2034 :检查 ARP (Address Resolution Protocol,地址解析协议)和 MAC (Media Access Control,介质访问控制)配置是否正确,检查方法:通过SNC (SubNetConnection, 子网连接)查询到相应的Τ0Ρ0 (拓扑)连接AZ点,本端ARP配置中的对端IP等于对端网元 的同一个VLAN下面的IP接口的IP地址,本端ARP配置中的对端MAC地址等于对端网元的 机架MAC地址(网元属性中的MAC地址)+1。检查结果:如果任一项配置不正确,则转入步 骤S207 ;如果全部正确,则继续下一步检查S204。
[0051] S204 :进行NNI (Network Node Interface,网络节点接口)侧性能分析,具体包 括:
[0052] S2041 :判断AZ路径上NNI侧经过的路径的链路的光功率是否在设定范围,比如是 否在(_19db,-2. 5db)范围内,如果不在设定范围,则给出相应的提示信息,转入步骤S207, 如果在设定范围,则继续下一步检S2042。
[0053] S2042 :判断 AZ 路径上 NNI 端口当前性能 CRC (Cyclic Redundancy Check,循环 冗余校验码)错误包是否超过设定的CRC错误包阈值,如果是,转入步骤S207 ;如果否,则继 续下一步检S2043。
[0054] S2043 :判断AZ路径上NNI端口带宽利用率是否超过设定的带宽利用率阈值,t匕 如80% ;以及判断广播报数量是否超过设定的广播报数量阈值;如果任一项是,则转入步骤 S207 ;如果其中任一项为否,则继续下一步检查S2044。
[0055] S2044 :判断AZ路径上网元的主控CPU以及线卡CPU占用率是否超过设定的CPU 占用率阈值,比如大于80%。如果任一项是,转入步骤S207 ;如果其中任一项为否,则继续下 一步检查S205。
[0056] S205 :进行0ΑΜ检测,具体步骤包括:
[0057] 分析PE (Provider Edge,服务商边缘路由器)节点,对该路径上的MIP进行LT最 大跳数的检测;如果LT检测结果超过设定的最大跳数阈值,则定位出有问题的那个节点, 继续下一步检查S206 ;否则转入步骤S207。
[0058] S206 :进行设备状态检查,具体步骤包括:
[0059] 针对有问题的节点,携带检测对象信息下发命令到设备,进行设备底层诊断分析 和自检,由设备返回相应的诊断结果。
[0060] S207 :判断故障节点是否已找到,如果是,则转步骤S208 ;如果否,则转步骤S209。
[0061] S208 :给出故障节点提示。
[0062] S209:如果经过上述分析步骤,还是未找出故障节点,那么直接提示用户进行人工 分析。
[0063] S210 :本次故障定位结束。
[0064] 本实施例中,定位出故障节点后,还可以进一步索引工程案例库,给出故障解决建 议和操作指导,将分析结果(故障原因和解决建议)一起返回界面呈现给用户。
[0065] 如图3所示,本发明实施例还涉及一种实现上述方法的网管系统中网络故障智能 定位的装置,包括:
[0066] 根源告警分析模块301,用于查询诊断对象的所有告警,进行告警相关性分析,找 出一个或多个根源告警;
[0067] 故障定位模块302,用于进行相关项目的分析,根据分析结果定位引发故障的节 点。
[0068] 其中,故障定位模块302进行的相关项目分析具体包括:配置数据分析,性能数据 分析,操作管理和维护0ΑΜ检测分析,设备状态查询和/或设备底层自检。
[0069] 本实施例中的网络故障定位装置能够定位的网络故障类型包括0ΑΜ故障、业务故 障和数据通信网络DCN故障;其中,0ΑΜ故障的诊断对象包括:隧道业务或伪线业务;业务 故障的诊断对象包括电路仿真业务CES业务或以太网ΕΤΗ业务。
[0070] 故障定位模块302配置数据分析的内容包括:业务数据的一致性、业务完整性、和 /或数据配置的合法性;
[0071] 故障定位模块302性能数据分析的内容包括:光功率性能越限项、收发包数性能 项、收发字节数性能项、和/或错报丢包数据;
[0072] 故障定位模块302进行的0ΑΜ检测分析的项目包括:环回检测LB和/或链路追踪 LT ;
[0073] 故障定位模块302进行的设备状态查询和/或设备底层自检的检查对象包括:设 备内部驱动、转发面和/或寄存器。
[0074] 本实施例中的网络故障定位装置还可以包括:故障解决建议模块,用于当找出故 障原因时,根据故障原因,索引工程案例库,根据索引结果,给出故障解决建议和操作指导。
[0075] 综上所述,本发明实施例提供了一种网管系统中网络故障智能定位的实现方法及 系统,在网络出现故障时,能够综合利用告警相关性分析、配置数据分析、性能数据分析、 0ΑΜ检测和设备状态查询等故障检测手段,定位引发故障的节点。通过本发明,在工程上发 生故障时可以自动定位解决大部分常见问题,从而大大提高现场故障处理能力,缩短故障 解决时间,降低维护人员的劳动强度。
[0076] 以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此, 任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换, 都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范 围为准。
【权利要求】
1. 一种网管系统中网络故障定位的方法,其特征在于,包括: 网管侧查询诊断对象的所有告警,进行告警相关性分析,找出一个或多个根源告警; 根据根源告警的类型进行相关项目的分析,并根据分析结果定位引发故障的节点。
2. 根据权利要求1所述的方法,其特征在于,所述根据根源告警的类型进行相关项目 分析的步骤包括以下项目中的一项或多项:配置数据分析,性能数据分析,操作管理和维护 OAM检测分析,设备状态查询和/或设备底层自检。
3. 根据权利要求2所述的方法,其特征在于,所述网络故障定位的故障类型至少包括 OAM故障、业务故障和数据通信网络DCN故障中的一种或多种;其中,所述OAM故障的诊断 对象包括:隧道业务或伪线业务;所述业务故障的诊断对象包括电路仿真业务CES业务或 以太网ΕΤΗ业务。
4. 根据权利要求2所述的方法,其特征在于,所述配置数据分析的内容至少包括:业务 数据的一致性、业务完整性、数据配置的合法性中的一项或多项; 所述性能数据分析的内容至少包括:光功率性能越限项、收发包数性能项、收发字节数 性能项、错报丢包数据中的一项或多项; 所述ΟΑΜ检测分析的项目至少包括:环回检测LB和/或链路追踪LT ; 所述设备状态查询和/或设备底层自检的检查对象至少包括:设备内部驱动、转发面 和寄存器中的一项或多项。
5. 根据权利要求1到4中任一项所述的方法,其特征在于,所述方法还包括: 当找出故障原因时,根据故障原因,索引工程案例库,根据索引结果,给出故障解决建 议和操作指导。
6. -种网管系统中网络故障定位的装置,其特征在于,包括: 根源告警分析模块,用于查询诊断对象的所有告警,进行告警相关性分析,找出一个或 多个根源告警; 故障定位模块,用于根据根源告警的类型,进行相关项目的分析,根据分析结果定位引 发故障的节点。
7. 根据权利要求6所述的装置,其特征在于,所述故障定位模块进行的相关项目分析 具体包括以下项目中的一项或多项:配置数据分析,性能数据分析,操作管理和维护ΟΑΜ检 测分析,设备状态查询和/或设备底层自检。
8. 根据权利要求7所述的装置,其特征在于,所述装置定位的网络故障类型至少包括 ΟΑΜ故障、业务故障和数据通信网络DCN故障中的一种或多种;其中,所述ΟΑΜ故障的诊断 对象包括:隧道业务或伪线业务;所述业务故障的诊断对象包括电路仿真业务CES业务或 以太网ΕΤΗ业务。
9. 根据权利要求7所述的装置,其特征在于,所述故障定位模块进行的配置数据分析 的内容至少包括:业务数据的一致性、业务完整性、数据配置的合法性中的一项或多项; 所述故障定位模块进行的性能数据分析的内容至少包括:光功率性能越限项、收发包 数性能项、收发字节数性能项、错报丢包数据中的一项或多项; 所述故障定位模块进行的ΟΑΜ检测分析的项目至少包括:环回检测LB和/或链路追踪 LT ; 所述故障定位模块进行的设备状态查询和/或设备底层自检的检查对象至少包括:设 备内部驱动、转发面和寄存器中的一项或多项。
10.根据权利要求6到9中任一项所述的装置,其特征在于,所述装置还包括:故障解 决建议模块,用于当找出故障原因时,根据故障原因,索引工程案例库,根据索引结果,给出 故障解决建议和操作指导。
【文档编号】H04L12/24GK104065501SQ201310093545
【公开日】2014年9月24日 申请日期:2013年3月22日 优先权日:2013年3月22日
【发明者】张曰明, 杨高科 申请人:中兴通讯股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1