光传输设备业务故障的自动化辅助分析方法和系统与流程

文档序号:15648545发布日期:2018-10-12 22:52阅读:346来源:国知局

本发明属于光传输设备维护技术领域,尤其涉及一种光传输设备业务故障的自动化辅助分析方法和系统。



背景技术:

随着通信传输技术的不断发展,同步数字体系(synchronousdigitalhierarchy,sdh)传输系统规模不断扩大,sdh网络设备的组网和业务配置复杂程度越来越高,而排除光传输设备的故障,是维护网络稳定运行的重要组成部分。而故障的确定,最关键的就是根据网管和设备架、板告警等信息确定故障点,并准确定位到单站,网络运维人员需要根据光传输设备的网管告警及仪表测试数据等,在最短时间内落实并处理故障,

现有技术中,告警、事件、操作日志各自以独立的故障信息呈现,需要网络运维人员将这些故障信息与端到端sdh业务及相关msp、sncp保护关联,以判断具体故障点及影响的业务。但是,故障信息离散,需要网络运维人员分析出主要根告警,这就要求运维人员需要对sdh原理有较深入的理解,并精通故障处理相关的各项网管及命令行操作才能找到故障点,实现故障恢复。而且手工梳理信息耗时过长,不利于及时处理故障。

因此,急需一种业务故障自动识别的方法,以辅助运维人员快速准确锁定故障点。



技术实现要素:

为克服上述现有技术的不足,本发明提供了一种光传输设备业务故障自动化辅助分析方法和装置,实现了故障信息一键提取和异常业务的自动圈定;并且将故障信息与故障业务进行多维度关联,并进行可视化分析,能够使运维人员对网络故障进行准确的把握。

为实现上述目的,本发明采用如下技术方案:

一种光传输设备业务故障自动化辅助分析方法,包括以下步骤:

获取各子网日志数据,基于故障信息过滤规则提取故障信息;

判断并提取异常业务信息;

基于故障信息和异常业务信息的属性特征,建立二者之间的关联关系;

基于所述关联关系,对提取的故障信息和异常业务信息进行共路径分析。

进一步地,故障信息过滤规则包括:

异常告警,包括通信质量、处理出错、设备故障、业务质量、环境告警和安全告警;

高危操作,包括可能影响业务的操作、网元级操作及端到端路径操作;

可疑事件,包括保护倒换、异常事件及关键状态事件。

进一步地,异常业务信息判断包括:业务状态判断、网内网外故障判断、lmsp当前链路判断、rmsp当前链路判断和支路实际落地业务单板/通道/时隙判断。

进一步地,所述业务状态判断包括:

根据业务宿站点信息,区分业务场景是线路之间传输还是线路向支路传输;

线路侧设备之间传输场景下,针对sncp业务,根据sncp倒换状态和sncp主备路径状态判断业务通断;针对非sncp业务,若是高阶业务,判断线路是否关联复用段保护业务,如关联复用段保护业务,则根据保护倒换状态分析真实业务源线路,将真实业务源线路相关告警作为业务状态好坏的判断依据;若是低阶业务,如端到端业务路径上有关联告警,记为可疑业务;

线路侧设备和支路侧设备间传输场景下,判断支路是否工作在配置落地业务的单板,若处于tps保护倒换态,获取实际落地业务单板/通道/时隙,作为业务状态判断依据;若业务状态为“好”且为sncp业务,根据sncp倒换状态和主备路径状态判断业务通断;若状态为“好”且为非sncp业务,判断线路是否关联复用段保护业务,分析真实业务源线路,将真实业务源线路相关告警作为业务状态好坏的判断依据。

进一步地,所述网内网外故障判断包括:

根据业务源站点信息,区分业务场景是线路之间传输还是支路向线路传输;

线路之间传输场景下,针对sncp业务,根据sncp倒换状态和主备路径状态判断业务通断,若当前路径状态为“坏”,则为网外故障;针对非sncp业务,若是高阶业务,判断线路是否关联复用段保护业务,如关联复用段保护业务,则分析真实业务源线路,将真实业务源线路相关告警作为业务状态好坏的判断依据,若业务状态为“坏”,则为网外故障;

支路向线路传输场景下,首先判断支路是否工作在配置落地业务的单板,若处于tps保护倒换态,获取实际落地业务单板/通道;若支路侧存在上行告警,则为网外故障。

进一步地,所述lmsp当前链路判断包括:

对于1+1lmsp,若为高阶业务,当工作路径和保护路径的接收端均关联到告警,则判断该业务为中断;若为低阶业务,如果工作路径和保护路径的接收端均能检测到该业务中更高阶的业务告警,则判断该业务为中断;

对于1:nlmsp,查询当前保护组的状态,若该保护组当前处于倒换状态,判断当前保护的工作节点和非当前保护的工作节点,非当前保护的节点为真实业务源。

进一步地,所述rmsp当前链路判断包括:

对于二纤环,通过业务出子网节点网元信息查询当前环形复用段的保护倒换状态,如果为倒换态,则业务出子网节点的源节点为保护通道上的节点;

对于四纤环,查找业务出子网节点的源节点;通过源节点查找网元上挂接的环形复用段的保护组id和东西向信息;通过原业务查询到当前业务配置在环形复用段的东西方向;通过环形复用段的保护组id查询所在网元的四纤环倒换状态;如果该网元为区段倒换态,并且有倒换方向和业务配置的方向一致,则判定出子网节点的源节点为区段倒换对应保护通道上的节点;如果该网元为环倒换态,并且倒换方向和业务配置的方向一致,则判定出子网节点的源节点为环倒换对应保护通道上的节点;其他情形下,源节点均为原始通道上的节点。

进一步地,所述支路实际落地业务单板/通道/时隙判断包括:

通过原始业务的出子网节点找到业务配置所在的tps保护组;

查询tps保护组状态,判断实际落地业务单板:

查询该保护组的倒换状态以及当前保护的保护单元,通过保护单元找到当前倒换的支路板,如果当前倒换不是原始业务配置的出子网单板,则当前业务的出子网节点为该单板;否则,当前业务的出子网节点为保护通道上的单板。

如果实际落地业务单板关联到业务相关的告警,则该业务为中断状态。

进一步地,建立故障信息和异常业务之间的关联关系包括:

根据异常告警的告警源和定位信息将所述告警关联到相关业务;

根据高危操作的操作对象将所述操作关联到相关网元及业务;

根据可疑事件的事件源和附加信息将所述事件关联到相关网元及业务。

进一步地,对提取的故障信息和异常业务信息进行共路径分析包括:

根据故障信息、网元和业务之间的关联关系,统计经过同一网元及同一链路的故障信息和异常业务的数量,并通过网络拓扑图进行可视化,快速锁定故障对象。

根据本发明的第二目的,本发明还提供了一种光传输设备业务故障自动化辅助分析系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的方法。

根据本发明的第三目的,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的光传输设备业务故障自动化辅助分析方法。

根据本发明的第四目的,本发明还提供了一种基于所述的光传输设备业务故障自动化辅助分析方法的网管系统。

本发明的有益效果

1、本发明提供了故障信息过滤方法和异常业务判断方法。故障信息根据特定规则进行过滤,快速有效的去除冗余信息干扰;结合sdh原理和设备的功能特点,自动圈定异常业务,根据告警判断出中断及可疑业务,并给出网内网外故障判断,以辅助故障定界,实现了故障信息的一键提取和异常业务的自动判断,将sdh原理及专家经验固化到工具系统中,辅助运维人员完成sdh业务的快速定位排障,不再依赖于有经验的专业维护人员。

2、本发明在实现了故障信息的一键提取和异常业务的自动判断的基础上,还针对故障信息与故障业务进行多维度关联,并进行共路径分析,利用统计数据分析出的共路径信息给出最可疑故障点,有效缩小故障范围,并进行可视化展示,指引运维人员直达故障点。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1为本发明业务故障自动化辅助分析方法流程图;

图2为业务状态判断过程中两种情景示意图,其中,图2(a)表示线路a向线路b传输,图2(b)表示线路a向支路传输;

图3为一个组网实例的示意图。图4为网内网外故障判断过程中两种情景示意图,其中,图4(a)表示线路a向线路b传输,图4(b)表示支路向线路传输;

图5为lmsp当前链路判断中两种情景示意图,其中,图5(a)表示1+1lmsp情景,图5(b)表示1:nlmsp情景;

图6为rmsp当前链路判断中两种情景示意图,其中,图6(a)表示二纤环情景,图6(b)表示四纤环情景;

图7为支路实际落地业务单板/通道/时隙判断过程示意图;

图8为共路径分析结果示意图;

图9为共路径分析可视化图。

具体实施方式

应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种光传输设备业务故障自动化辅助分析方法,包括以下步骤:

获取各子网的告警、事件、操作日志数据,基于故障信息过滤规则提取故障信息;

对异常业务进行判断;

建立故障信息和异常业务的关联关系;

基于所述关联关系,对提取的故障信息和异常业务信息进行共路径分析。

(一)基于故障信息过滤规则提取故障信息

1、建立故障信息过滤规则,过滤得到的故障信息包括异常告警、高危操作和可疑事件;

2、选定故障时间段;

3、该步骤为可选步骤,可根据具体需求,选定故障对象;

4、基于故障信息过滤规则,从日志数据中提取故障信息,并记录故障信息的属性信息。

所述故障信息过滤规则如下:

(1)异常告警,以业务质量作为业务状态的判断条件,其他通信质量/设备故障/处理出错等告警仅用作关联呈现。异常告警的属性信息包括告警名称、告警级别、告警源、网元类型、定位信息等。

异常告警分类:

通信质量:有关网元通信、ecc通信、光信号通信等的告警。例如:网元通信中断、光信号丢失。

处理出错:有关软件处理和异常情况的告警。例如:网元总线冲突、备用通道检查失效。

设备故障:有关网元硬件的告警。例如:激光器故障、光口环回。

业务质量:有关业务状态和网络服务质量的告警。例如:复用段性能越限、b2误码过量。

环境告警:有关电源系统、机房环境(温度、湿度、门禁等)的告警。例如:电源模块温度过高。

安全告警:有关网管、网元安全性的告警。例如:网元用户未登录。

(2)高危操作,可能影响业务的操作网元级操作及端到端路径操作。高危操作的属性信息包括操作名称、操作级别、操作对象、操作时间、操作结果、操作用户等。

高危操作分类:

sdhe2e管理:端到端相关操作,如“创建sdh路径”,“创建保护子网”,“网络层删除路径”,“激活电路”等;

网元配置管理:网元级的操作,如“创建单板”,“创建snc业务保护组”,“删除sdh网元业务”,“去激活sdh网元业务”等;

(3)可疑事件,保护倒换、异常事件及关键状态事件,辅助运维人员进行故障分析。可疑事件的属性信息包括事件名称、事件级别、事件源、网元类型、发生时间等。

可疑事件类型:

保护倒换:设备类倒换事件,如“支路板倒换”,“交叉时钟板倒换”等;业务类保护倒换,如“sncp倒换”,“线性复用段保护倒换”,“复用段保护倒换”等;

异常事件:如“主机复位”,“用户退出网元登录”,“数据库进入保护模式”等事件;

状态事件:如“软件加载开始事件”,“软件加载结束事件”,“网元配置更改”,“单板上线事件”等事件。

(二)异常业务判断

所述异常业务信息判断包括:业务状态判断、网内网外故障判断、lmsp当前链路判断、rmsp当前链路判断和支路实际落地业务单板/通道/时隙判断。

1、业务状态判断

查看业务宿站点,区分如下两种业务场景:

场景1:线路a->线路b,如图2(a):

(1)若是sncp业务,根据sncp倒换状态和主备路径状态判断业务通断;

(2)非sncp业务,若是高阶业务(vc4/4c/8c/16c/64c),判断线路a是否关联复用段保护业务,如rmsp、lmsp,如关联复用段保护业务,则根据保护倒换状态分析真实业务源线路a’,根据线路a’相关告警作为业务状态好坏的判断依据;

(3)非sncp业务,若是低阶业务,如端到端业务路径上有关联告警,标为可疑业务(无法直接判断业务好坏);

以图3组网为例,ne2就是就是线路到线路的业务,11-sl16和8-sl16就是图2(a)上示意图的线路a和线路b。场景2:线路->支路(需考虑板间告警抑制),如图2(b):

(1)判断支路是否工作在配置落地业务的单板,若处于tps保护倒换态,需给出实际落地业务单板/通道/时隙;

(2)取实际落地业务支路/通道/时隙的告警作为业务状态的判断依据,得出状态1;

(3)若状态1为good,再判断是否sncp业务,若是sncp业务,根据sncp倒换状态和主备路径状态判断业务通断;

(4)若状态1为good且非sncp业务,判断线路a是否关联复用段保护业务,如rmsp、lmsp,分析真实业务源线路a’,根据线路a’相关告警作为业务状态好坏的判断依据;

注:(3)和(4)目的是在存在板间告警抑制时,将线路的告警状态叠加进去,作为业务状态好坏的判断条件。

2、网内网外故障判断

查看业务源站点,区分如下两种业务场景:

场景1:线路a->线路b,如图4(a):

(1)若是sncp业务,根据sncp倒换状态和主备路径状态判断业务通断,若当前工作路径状态为坏,则是网外故障;

(2)非sncp业务,若是高阶业务(vc4/4c/8c/16c/64c),判断线路a是否关联lmsp,分析真实业务源线路a’,根据线路a’相关告警作为业务状态好坏的判断依据,若业务状态为坏,则是网外故障;

(3)非sncp业务,若是低阶业务,需通过其他辅助方法判断是否为网外故障;

场景2:支路->线路,如图4(b)

(1)判断支路是否工作在配置落地业务的单板,若处于tps保护倒换态,需给出实际落地单板/通道;

(2)若支路侧存在t_alos/up_e1ais等上行告警,则为网外故障。

3、lmsp当前链路判断

对于1+1lmsp,如图5(a):

高阶业务:

直接查询图中工作路径和保护路径的接收端ab两个点是否能关联告警,如果工作路径和保护路径的接收端都关联到告警,则该业务判为中断,反之则认为该业务正常。

低阶业务:

判断该业务经过的其他节点上关联到了告警,如果ab两点都检测到了该业务中更高阶的业务告警,则判断该业务为中断。

对于1:nlmsp,如图5(b):

查询当前保护组的状态,若该保护组当前处于倒换状态,判断当前保护的工作节点和非当前保护的工作节点,非当前保护的节点为真实业务源。

具体地,通过单站线性复用段的保护组id查询当前的保护组的状态,若该保护组当前处于倒换态,则判断保护节点当前保护的是哪一工作节点,若是a节点,则以a节点为业务源的业务的真实业务源是b节点。如果当前保护的节点不是该业务a节点,则直接选择a节点作为下业务节点的源节点,反之选择b节点作为下业务节点的源节点。

4、rmsp当前链路判断

二纤环,如图6(a):

通过业务出子网节点网元的环形复用段的保护组id(单站)查询当前环形复用段的保护倒换状态,如果为倒换态,则业务出子网节点的源节点为b,反之业务出子网节点的源节点为a。

四纤环,如图6(b):

1)查找业务出子网节点的源节点

2)通过源节点查询该网元上挂接的环形复用段的保护组id和东西向信息

3)通过原业务查询到当前业务配置在环形复用段的东西方向

4)通过环形复用段的保护组id来查询所在网元的四纤环倒换状态

以上四步以后,如果该网元为区段倒换态,并且有倒换方向和业务配置的方向一致,则判定出子网节点的源节点为b点,如果不一致,则源节点为a点。

同理,如果该网元为环倒换态,并且倒换方向和业务配置的方向一致,则判定出子网节点的源节点为c点,如果不一致,则源节点为a点。

表1rmsp二纤环和四纤环倒换状态表

5、支路实际落地业务单板/通道/时隙判断(如图7)

1)通过原始业务的出子网节点找到业务配置所在的tps保护组;

2)查询tps保护组状态,判断实际落地单板:

通过查询该保护组的倒换状态以及当前保护的保护单元,通过保护单元找到当前倒换的支路板,如果当前倒换不是原始业务配置的出子网单板a1,则当前业务的出子网节点为a1。反之,当前业务的出子网节点为b。

通过实际落地的线路板,以及告警关联,如果实际落地支路板上关联到业务相关的告警,则该业务为中断状态,反之,该业务为正常状态。

(三)建立故障信息和异常业务之间的关联关系

针对不同的故障信息类型,根据不同的属性信息与相关业务建立关联。

1、根据“告警源”和“定位信息”将告警关联到相关业务。

告警源:网元;定位信息:单板-端口-通道/vc4/vc12

表告警的属性信息

2、根据“操作对象”将操作关联到相关网元及业务;

表操作的属性信息

3、根据“事件源”和“附件信息”将事件关联到相关网元及业务;

表事件的属性信息

(四)根据故障信息、网元和业务之间的关联关系,进行共路径分析

根据故障信息、网元和业务之间的关联关系,统计经过同一网元及同一链路的故障、业务数(图8),并进行可视化(在topo图上标注,图9),快速锁定故障对象,指引维护人员直达故障点。

实施例二

本实施例的目的是提供一种分析系统。

一种光传输设备业务故障自动化辅助分析系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤,包括:

获取各子网日志数据,基于故障信息过滤规则提取故障信息;

判断并提取异常业务信息;

基于故障信息和异常业务信息的属性特征,建立二者之间的关联关系;

基于所述关联关系,对提取的故障信息和异常业务信息进行共路径分析。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行以下步骤:

获取各子网日志数据,基于故障信息过滤规则提取故障信息;

判断并提取异常业务信息;

基于故障信息和异常业务信息的属性特征,建立二者之间的关联关系;

基于所述关联关系,对提取的故障信息和异常业务信息进行共路径分析。

实施例四

本实施例的目的是提供一种网管系统。

为了实现上述目的,本发明采用如下一种技术方案:

本实施例提供了一种网关系统,采用所述光传输设备业务故障自动化辅助分析方法进行故障分析和定位,并进行可视化。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本发明的有益效果

1、本发明提供了故障信息过滤方法和异常业务判断方法。故障信息根据特定规则进行过滤,快速有效的去除冗余信息干扰;结合sdh原理和设备的功能特点,自动圈定异常业务,根据告警判断出中断及可疑业务,并给出网内网外故障判断,以辅助故障定界,实现了故障信息的一键提取和异常业务的自动判断,不再依赖于有经验的专业维护人员,有助于运维部门快速梳理故障业务及确定故障点。

2、本发明在实现了故障信息的一键提取和异常业务的自动判断的基础上,还针对故障信息与故障业务进行多维度关联,并进行共路径分析,利用统计数据分析出的共路径信息给出最可疑故障点,有效缩小故障范围,并进行可视化展示,指引运维人员直达故障点。

本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1