一种智能业务动态倒换的故障分析方法及系统与流程

文档序号:17771045发布日期:2019-05-28 19:25阅读:377来源:国知局
一种智能业务动态倒换的故障分析方法及系统与流程

本发明涉及计算机通信技术领域,具体是涉及一种智能业务动态倒换的故障分析方法及系统。



背景技术:

在通信传输业务领域,传统的带保护业务如果当前经过的光纤、链路、单盘或者元器件等发生故障时,可以自动将当前业务倒换到预先设置好的保护路径中。但是一般来说传统业务由于是1+1的主备设置,所以只能倒换一次,无法抗击多次的故障。而智能业务是基于控制平面软件功能,可以动态调整当前业务所经过路径,在故障发生时可以自动寻找一条当前资源满足的新路由,从而达到抗击多次业务故障的功能,对于硬件基础设施不佳的工程环境可以有更好的端到端连接保障。

在工程维护过程中,维护人员需要定期分析和统计业务故障发生的情况,来更好的进行网络的维护。对于智能业务的维护而言,维护人员需要关心一段时间内,哪些业务发生过故障,故障发生后业务的信号流向,以及故障发生的原因等信息。

目前光传输领域业务故障的分析,都是通过基于大数据量的告警进行数据挖掘和分析,从而判断发生故障的业务位置、以及故障的原因等。通过这些方法存在的问题是:

1、由于不同的业务场景、不同的设备类型,相同故障产生的告警可能都不一样,因此,基于数据挖掘的方法分析的准确性不高。

2、无法在分析得到故障发生后,分析业务当前信号流或者业务的倒换方向是怎样的。

3、需要耗费大量的运算能力和时间进行统计和分析。



技术实现要素:

本发明的目的是为了克服上述背景技术的不足,提供一种智能业务动态倒换的故障分析方法,清晰的提供故障发生时的所有相关信息,提高了准确性和效率。

本发明提供一种智能业务动态倒换的故障分析方法,包括以下步骤:

接收动态倒换事件信息,缓存并放入队列中;倒换事件信息包括倒换事件对应的业务、业务的功能属性和经过的te链路的端口信息;

分析倒换事件信息,获得业务倒换后的路由拓扑信息;

根据倒换事件信息,判断引起倒换的故障原因为用户的操作引起、故障恢复自动返回引起或者传输平面故障;

将引起倒换的故障原因,倒换前、后的路由拓扑信息加入倒换事件信息中。

在上述方案的基础上,所述分析倒换事件信息,获得业务倒换后的路由拓扑信息,具体包括以下步骤:

解析所有的倒换事件信息,根据业务的源网元、源端口和源标签对倒换事件信息进行分组;

将分组后的倒换事件信息,定位到管理平面业务对象实体;

根据倒换事件的最新数据,更新管理平面业务对象实体属性、对象实体属性业务的激活状态和路由拓扑信息。

在上述方案的基础上,所述根据倒换事件信息,判断引起倒换的故障原因为用户的操作引起、故障恢复自动返回引起或者传输平面故障,具体包括以下步骤:

若倒换事件发生时间点之前的设定时间内存在用户操作,且用户操作的操作对象与倒换事件对应的业务对象一致,判定该业务的倒换事件原因为用户的操作引起;

若倒换事件对应的业务是从备用路径切换到故障发生前的主用路径的业务,且该业务的当前工作路径是原来的主用路径,判定该业务的倒换事件原因为故障恢复自动返回引起;

以上两者均否,则判定该业务的倒换事件原因为传输平面故障,分析对应的故障原因。

在上述方案的基础上,所述判定该业务的倒换事件原因为传输平面故障,分析对应的故障原因,具体包括以下步骤:

先分析倒换事件发生的业务层次;

根据所在层次,找到所经过的单盘;

根据所在单盘,获取倒换事件对应的故障告警。

在上述方案的基础上,所述将引起倒换的故障原因,倒换前、后的路由拓扑信息加入倒换事件信息中,具体包括以下步骤:

缓存倒换前、后路由信息;

记录引起倒换的故障原因,将倒换前和倒换后的路由信息加入到倒换事件信息中去,记录倒换发生的时间点;

将所有的倒换信息保存到数据库中,供用户进行查询。

本发明提供一种智能业务动态倒换的故障分析系统,包括:

倒换事件缓存模块,其用于:接收动态倒换事件信息,缓存并放入队列中;倒换事件信息包括倒换事件对应的业务、业务的功能属性和经过的te链路的端口信息;

倒换事件分析模块,其用于:分析倒换事件信息,获得业务倒换后的路由拓扑信息;

故障原因判断模块,其用于:根据倒换事件信息,判断引起倒换的故障原因为用户的操作引起、故障恢复自动返回引起或者传输平面故障;

记录模块,其用于:将引起倒换的故障原因,倒换前、后的路由拓扑信息加入倒换事件信息中。

在上述方案的基础上,所述倒换事件分析模块分析倒换事件信息,获得业务倒换后的路由拓扑信息,具体包括以下步骤:

解析所有的倒换事件信息,根据业务的源网元、源端口和源标签对倒换事件信息进行分组;

将分组后的倒换事件信息,定位到管理平面业务对象实体;

根据倒换事件的最新数据,更新管理平面业务对象实体属性、对象实体属性业务的激活状态和路由拓扑信息。

在上述方案的基础上,所述故障原因判断模块根据倒换事件信息,判断引起倒换的故障原因为用户的操作引起、故障恢复自动返回引起或者传输平面故障,具体包括以下步骤:

若倒换事件发生时间点之前的设定时间内存在用户操作,且用户操作的操作对象与倒换事件对应的业务对象一致,判定该业务的倒换事件原因为用户的操作引起;

若倒换事件对应的业务是从备用路径切换到故障发生前的主用路径的业务,且该业务的当前工作路径是原来的主用路径,判定该业务的倒换事件原因为故障恢复自动返回引起;

以上两者均否,则判定该业务的倒换事件原因为传输平面故障,分析对应的故障原因。

在上述方案的基础上,所述故障原因判断模块判定该业务的倒换事件原因为传输平面故障,分析对应的故障原因,具体包括以下步骤:

先分析倒换事件发生的业务层次;

根据所在层次,找到所经过的单盘;

根据所在单盘,获取倒换事件对应的故障告警。

在上述方案的基础上,所述记录模块将引起倒换的故障原因,倒换前、后的路由拓扑信息加入倒换事件信息中,具体包括以下步骤:

缓存倒换前、后路由信息;

记录引起倒换的故障原因,将倒换前和倒换后的路由信息加入到倒换事件信息中去,记录倒换发生的时间点;

将所有的倒换信息保存到数据库中,供用户进行查询。

与现有技术相比,本发明的优点如下:

本发明提供的智能业务动态倒换的故障分析方法,可以清晰的提供故障发生时的所有相关信息,包括倒换前后的路由、倒换时间、倒换原因等,便于维护人员实时或者定时的维护需求。相比其它方法,降低了程序需要的运算复杂度和运行时间,提高了准确性和效率。

附图说明

图1是本发明实施例的智能业务动态倒换的故障分析方法的流程示意图;

图2是本发明实施例的智能业务动态倒换的故障分析方法的步骤s2流程示意图;

图3是本发明实施例的智能业务动态倒换的故障分析方法的步骤s3流程示意图;

图4是本发明实施例的智能业务动态倒换的故障分析方法的步骤s4流程示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细描述。

参见图1所示,本发明实施例提供一种智能业务动态倒换的故障分析方法,包括以下步骤:

s1,接收动态倒换事件信息并放入队列中;倒换事件信息包括倒换事件对应的业务、业务的功能属性和经过的te链路的端口信息;

s2,分析倒换事件信息,绘制业务倒换后的路由拓扑;

s3,根据倒换事件信息,判断引起倒换的故障原因;

s4,将引起倒换的故障原因,以及倒换前、后的路由拓扑信息加入倒换事件信息中。

智能业务发生故障时,网管系统会收到来自控制平面上报的关于智能业务的倒换事件。由于这些倒换事件可能来自于不同的智能业务,而且数量可能非常巨大,网管需要将这些信息进行缓存并放入队列中。

本发明实施例提供的智能业务动态倒换的故障分析方法可以清晰的提供故障发生时的所有相关信息,包括倒换前后的路由,倒换时间等,便于维护人员实时或者定时的维护需求。相比其它方法,降低了程序需要的运算复杂度和运行时间,提高了准确性和效率。

作为优选的实施方式,分析倒换事件信息,得到业务倒换后的路由拓扑,包括以下步骤:

解析所有的倒换事件信息,根据业务的源网元、源端口和源标签对倒换事件信息进行分组;

将分组后的倒换事件信息,定位到管理平面业务对象实体;

根据倒换事件的最新数据,更新管理平面业务对象实体属性;对象实体属性业务的激活状态和详细路由信息。

为便于用户直观分析,可绘制业务对象倒换后新的路由拓扑。

参见图2所示,步骤s2具体包括以下步骤:

步骤s21、取出队列中缓存的数据,网管系统根据设备协议解析所有的倒换事件信息。解析完成后,网管系统就可以根据智能业务的源网元、源端口和源标签进行分组。考虑到在网络环境不稳定或者光纤抖动的情况下,控制平面会上报大量的冗余数据,网管系统需要将同一分组中的信息进行去重处理。

步骤s22、管理平面存储着所有运行在传输平面和控制平面中端到端的业务数据信息。用户可以根据这些业务信息,实时监控当前业务的运行情况,并做出相应的维护操作。网管系统需要将上一步骤分组后的倒换事件信息,定位到管理平面业务对象实体。定位的具体方法就是查找是否有相同的源网元和源端口和源标签,因为一个智能业务中这个信息是唯一的。

步骤s23、找到对应的对象实体后,网管系统需要根据倒换事件中的最新数据,来更新管理平面业务对象实体属性。这些属性包括该业务的激活状态,是正常的还是故障。还包括业务经过的网元和单盘,即业务的详细路由信息。网管需要根据倒换事件中上报的te路由信息,通过寻路找到这条路由数据。

步骤s24、由于倒换记录并不要求特别高的实时性,所以网管系统先处理完智能业务的属性和路由等信息的同步工作,然后再处理倒换记录。管理平面后台更新路由后,发出消息通知界面,绘制业务对象倒换后新的路由拓扑。

作为优选的实施方式,根据倒换事件信息,判断引起倒换的故障原因,参见图3所示,具体包括以下步骤:

查找哪些倒换事件是由于用户的操作引起的,将这些倒换事件的故障原因归于人工修改所致;首先需要查找哪些倒换事件是由于用户的操作引起的,然后将这些倒换事件的原因归于人工修改所致。网管系统会记录用户的操作,以及用户操作的时间和操作的对象等信息。可以先根据时间进行判断,在该倒换事件发生时间点之前的一段时间内(一般采用10秒),网管系统的操作日志中所有的操作记录。然后根据这些操作记录中的操作对象信息,可以判定是否和倒换事件对应的业务对象一致。如果一致,那么就将该倒换事件原因归于人工操作,如果不一致,那么需要继续进行分析。

查找哪些倒换事件是由于之前发生的故障解除后,业务返回至主用通道引起的,将这些倒换事件的原因归于故障恢复自动返回。本步骤需要查找哪些倒换事件是由于之前发生的故障解除后,业务返回至主用通道引起的,然后将这些倒换事件的原因归于故障恢复自动返回。对于智能业务,有返回型和非返回型的区别。返回型业务指的是,当故障恢复后,智能业务可以自动的将路由从备用路径切换到故障发生前的主用路径。非返回型业务指的是,当故障恢复后智能业务不会将路由从备用路径切换到故障发生前的主用路径。首先判断该智能业务是否是返回型的。如果不是,那么需要继续分析。如果是,那么判断当前该智能业务的当前工作路径是否是原来的主用路径。如果不是,那么就继续分析。如果是,那么说明该业务的倒换事件原因是故障恢复后自动返回。

查找哪些倒换事件是由于传输平面故障引发的,将这些倒换事件的原因归于传输平面故障。以上步骤已经过滤了由于用户操作和故障恢复引起的倒换事件,剩下的倒换事件就属于由于传输平面故障引发的倒换事件。判断的原理就是先分析故障发生的业务层次。在光传输系统中,业务层次从底层到上层依次分为物理传输层(ots)、复用段层(oms)、光层(och)、电层(oduk,电层区分高阶和低价通道)、客户层(client)。然后根据所在层次,找到所经过的单盘,最后获取对应的故障告警。

作为优选的实施方式,查找哪些倒换事件是由于传输平面故障引发的,将这些倒换事件的原因归于传输平面故障,具体包括以下步骤:

当前业务层次是光层时,判断所有的倒换业务是否有相同的服务层:

如果倒换业务有相同的服务层,查找服务层经过的公共路由;查找公共路由经过的单盘以及单盘上的告警,判断单盘所在层次是oms层还是ots层:如果是oms层,故障原因是光复用段或者光监控器件的告警导致;如果是ots层,故障原因是光纤放大器告警导致;

如果倒换业务没有相同的服务层,判断业务是否有保护:如果有保护,查看保护器件是否有告警,判断故障原因是否由于光保护器件告警产生;如果没有保护,查找业务源宿的光波长器件是否有告警,判断故障原因是否来自于光波长器件;

当前业务层次是电层时,判断当前的低价通道是否有相同的高阶服务层:

如果有相同的高阶服务层,判断高阶通道的源宿是否有高阶port口故障的告警:如果有高阶port故障告警,故障原因来自于告警port口故障;如果没有,转向光层的判断流程;

如果没有相同的高阶服务层,判断是否有1+1保护:如果有保护,查看交叉盘上是否有对应告警:如果有告警,故障原因是电层交叉倒换故障;如果没有告警,查找源宿支路口告警,故障原因是低价port口故障。

参见图4所示,作为优选的实施方式,将引起倒换的故障原因,倒换前、后的路由拓扑信息加入倒换事件信息中,具体包括以下步骤:

s41,缓存倒换前、后路由信息;

s42,记录引起倒换的故障原因,将倒换前和倒换后的路由信息加入到倒换事件信息中去,记录倒换发生的时间点;

s43,将所有的倒换信息保存到数据库中,供用户进行查询。

本发明实施例提供一种智能业务动态倒换的故障分析系统,包括:

倒换事件缓存模块,其用于:接收动态倒换事件信息,缓存并放入队列中;倒换事件信息包括倒换事件对应的业务、业务的功能属性和经过的te链路的端口信息;

倒换事件分析模块,其用于:分析倒换事件信息,绘制业务倒换后的路由拓扑;

故障原因判断模块,其用于:根据倒换事件信息,判断引起倒换的故障原因;

记录模块,其用于:将引起倒换的故障原因,倒换前、后的路由拓扑信息加入倒换事件信息中。

作为优选的实施方式,倒换事件分析模块分析倒换事件信息,得到业务倒换后的路由拓扑,具体包括以下步骤:

解析所有的倒换事件信息,根据业务的源网元、源端口和源标签对倒换事件信息进行分组;

将分组后的倒换事件信息,定位到管理平面业务对象实体;

根据倒换事件的最新数据,更新管理平面业务对象实体属性、对象实体属性业务的激活状态和详细路由信息。

为便于用户直观分析,可绘制业务对象倒换后新的路由拓扑。

作为优选的实施方式,故障原因判断模块根据倒换事件信息,判断引起倒换的故障原因,具体包括以下步骤:

查找哪些倒换事件是由于用户的操作引起的,将这些倒换事件的故障原因归于人工修改所致;

查找哪些倒换事件是由于之前发生的故障解除后,业务返回至主用通道引起的,将这些倒换事件的原因归于故障恢复自动返回;

查找哪些倒换事件是由于传输平面故障引发的,将这些倒换事件的原因归于传输平面故障。

作为优选的实施方式,记录模块将引起倒换的故障原因,倒换前、后的路由拓扑信息加入倒换事件信息中,具体包括以下步骤:

缓存倒换前、后路由信息;

记录引起倒换的故障原因,将倒换前和倒换后的路由信息加入到倒换事件信息中去,记录倒换发生的时间点;

将所有的倒换信息保存到数据库中,供用户进行查询。

本领域的技术人员可以对本发明实施例进行各种修改和变型,倘若这些修改和变型在本发明权利要求及其等同技术的范围之内,则这些修改和变型也在本发明的保护范围之内。说明书中未详细描述的内容为本领域技术人员公知的现有技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1