一种故障关联方法和装置与流程

文档序号:12622402阅读:281来源:国知局
一种故障关联方法和装置与流程

本发明涉及通信领域,特别涉及一种故障关联方法和装置。



背景技术:

随着IT虚拟化、云计算等技术的发展,以及互联网服务商对电信运营商的冲击,电信领域内提出了网络功能虚拟化的要求,目标是通过虚拟化技术,采用低廉的通用硬件来替代传统电信领域使用的专用硬件,降低投资和运营成本,同时提供更加灵活和便捷的服务部署能力。

根据ETSI(European Telecommunications Standards Institute,欧洲电信标准化协会)的网络功能虚拟化规范中的架构划分,整个电信虚拟化系统分为如下三层:虚拟应用层、虚拟资源层和物理资源层。

当虚拟应用发生故障时,导致其故障的原因,除了虚拟应用本身,还有可能是虚拟资源层和物理资源层的故障导致的,比如,当一个物理服务器上的物理端口不可用,会导致该物理端口上的虚拟端口不可用,从而影响使用该虚拟端口的虚拟应用的网络链路不通。因此要快速定位一个虚拟用的故障产生原因,必须关联到其下层(虚拟资源层、物理资源层)的故障。

电信虚拟化系统下的三层系统,在大部分场景下都是采用不同的厂商的产品,由于相关的规范并不成熟,各厂商的故障信息中,目前都只会关注本层的信息,而不会携带其他层的信息,因此,无法直接根据各层的原始故障信息来定位故障间的关联关系,需要提供一种有效的故障关联定位机制。传统故障关联技术,是根据故障节点间的拓扑关系分型分析,传统的关联技术只会维护当前的拓扑关系即拓扑树,这是因为对于非虚拟化环境来说,拓扑树的变化是稳 定而受控的。而对虚拟化环境来说,根据不同的部署策略,不同的硬件状态,各层资源之间的关系是动态变化的,这个变化一般对上层应用是不可见的。当故障发生后,上报分析时,资源拓扑关系发生了变更,那么分析结果就会产生误差。



技术实现要素:

本发明要解决的主要技术问题是,提供一种故障关联方法和装置,解决现有中在利用拓扑树进行故障关联时分析结果错误的问题。

为解决上述问题,本发明提供一种故障关联方法,包括:

接收故障源上报的源故障信息,所述源故障信息包括所述故障源的位置信息;

获取所述故障源的产生时间;

根据所述产生时间查找对应的资源拓扑树;

根据所述位置信息和所述资源拓扑树获取所述故障源的关联故障。

在本发明的一种实施例中,所述资源拓扑树包括预设时间段内各资源节点和各资源节点对应的有效时间。

在本发明的一种实施例中,在根据所述产生时间查找对应的资源拓扑树之前,还包括:检测各资源节点变更,对所述资源拓扑树进行更新。

在本发明的一种实施例中,所述各资源节点变更包括:新增资源节点和/或删除资源节点;所述对所述资源拓扑树进行更新包括:

当检测为新增资源节点时,在所述资源拓扑树中增加该资源节点,并且将上报新增该资源节点的时间作为该资源节点有效时间的开始时间;

当检测为删除资源节点时,上报删除该资源节点的时间作为该资源节点有 效时间的结束时间。

在本发明的一种实施例中,所述获取所述故障源的产生时间包括:获取接收到所述故障信息的接收时间和上报的延迟时间,根据所述接收时间和所述延迟时间得到所述故障源的产生时间。

在本发明的一种实施例中,所述根据所述位置信息和所述资源拓扑树获取所述故障源的关联故障包括:根据所述位置信息找到所述故障源在所述资源拓扑树中的资源节点,根据预设关联规则和所述故障源的故障类型从所述资源节点上游的故障信息中识别出所述故障源的关联故障。

在本发明的一种实施例中,在根据所述位置信息找到所述故障源在所述资源拓扑树中的资源节点之后,还包括:根据所述位置信息关联到所述资源节点的对应的资源对象上。

在本发明的一种实施例中,所述根据预设关联规则和所述故障源的故障类型从所述资源节点上游的故障信息中识别出所述故障源的关联故障包括:

当所述故障源发生在物理资源层时,不进行故障关联识别;

当所述故障源发生在虚拟资源层时,根据归属的资源节点,查找与所述资源节点连接的物理资源层的资源节点,获取这些节点上的故障信息,根据所述故障类型和所述预设关联规则筛选出物理资源层的关联故障;

当所述故障源发生在虚拟应用层时:根据归属的虚拟网络功能单元,查找与所述虚拟网络功能单元连接的虚机,获取与所述虚机连接的虚拟资源层的资源节点,获取这些节点上的故障信息,根据所述故障类型和所述预设关联规则筛选出虚拟资源层的关联故障。

在本发明的一种实施例中,在根据预设关联规则和所述故障源的故障类型从所述资源节点上游的故障信息中识别出所述故障源的关联故障之前,还包括: 动态更新预设规则。

为解决上述问题,本发明还提供一种故障关联装置,包括接收模块、获取模块、拓扑模块和关联模块:

所述接收模块用于接收故障源上报的源故障信息,所述源故障信息包括所述故障源的位置信息;

所述获取模块用于获取所述故障源的产生时间;

所述拓扑模块用于根据所述产生时间查找对应的资源拓扑树;

所述关联模块用于根据所述位置信息和所述资源拓扑树获取所述故障源的关联故障。

在本发明的一种实施例中,还包括更新模块,所述更新模块用于在根据所述产生时间查找对应的资源拓扑树之前,检测各资源节点变更,对所述资源拓扑树进行更新。

在本发明的一种实施例中,所述各资源节点变更包括:新增资源节点和/或删除资源节点;所述更新模块还用于:

当检测为新增资源节点时,在所述资源拓扑树中增加该资源节点,并且将上报新增该资源节点的时间作为该资源节点有效时间的开始时间;

当检测为删除资源节点时,上报删除该资源节点的时间作为该资源节点有效时间的结束时间。

在本发明的一种实施例中,所述获取模块还用于获取接收到所述故障信息的接收时间和上报的延迟时间,根据所述接收时间和所述延迟时间得到所述故障源的产生时间。

在本发明的一种实施例中,所述关联模块还用于:根据所述位置信息找到所述故障源在所述资源拓扑树中的资源节点,根据预设关联规则和所述故障源 的故障类型从所述资源节点上游的故障信息中识别出所述故障源的关联故障。

在本发明的一种实施例中,所述关联模块还用于:在根据预设关联规则和所述故障源的故障类型从所述资源节点上游的故障信息中识别出所述故障源的关联故障之前,动态更新预设规则。

本发明的有益效果是:

本发明提供的故障关联方法和装置,接收故障源上报的源故障信息,源故障信息包括故障源的位置信息;获取故障源的产生时间;根据产生时间查找对应的资源拓扑树;根据位置信息和资源拓扑树获取故障源的关联故障。与现有技术比,根据故障的产生时间找到对应的拓扑树,即定位到正确的拓扑关系。从而对故障的管理进行正确的关联,能够很好的解决资源拓扑变更带来的分析误差,大大提高用户在虚拟化环境下故障关联的效率,同时本发明对于虚拟化各层系统的具体产品和接口实现没有依赖,具备很好的通用性,非常适合在现阶段的虚拟化环境中应用,提供产品的核心竞争力。

附图说明

图1-1为本发明实施例一提供的故障关联方法流程示意图;

图1-2为本发明实施例一提供的故障关联方法中的资源拓扑树示意图一;

图1-3为本发明实施例一提供的故障关联方法中的资源拓扑树示意图二;

图1-4为本发明实施例一提供的故障关联方法中的资源节点建模示意图;

图2为本发明实施例二提供的故障关联方法流程示意图;

图3为本发明实施例三提供的故障关联方法流程示意图;

图4为本发明实施例四提供的故障关联方法流程示意图;

图5为本发明实施例五提供的故障关联方法流程示意图;

图6为本发明实施例六提供的故障关联方法流程示意图;

图7为本发明实施例六提供的故障关联装置结构示意图一;

图8为本发明实施例六提供的故障关联装置结构示意图二。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

本实施例的故障关联方法,如图1-1所示,包括以下步骤:

步骤S101:接收故障源上报的源故障信息,源故障信息包括故障源的位置信息;

在该步骤中,故障源上报自身的故障的相关信息,即上报源故障信息。管理端接收该源故障信息。这里的故障源的位置信息是指发生故障在哪里,具体的在哪个层,哪个资源节点等。

步骤S102:获取故障源的产生时间;

在该步骤中,这里的产生时间是指故障产生的时间。

步骤S103:根据产生时间查找对应的资源拓扑树;

在该步骤中,由于虚拟化环境来说,根据不同的部署策略,不同的硬件状态,各层资源之间的关系是动态变化的,即资源拓扑树是不断变化的,为了准确的找到故障关联的故障,那么就要找到准确的资源拓扑树。这里对应的资源 拓扑树是指该故障源产生故障的时间对应的资源拓扑树。

步骤S104:根据位置信息和资源拓扑树获取故障源的关联故障。

在该步骤中,在确定好资源拓扑树后,就可以根据该故障源发生的位置信息来找到其关联故障。举例进行说明,如图1-2所示,虚拟网络功能管理VNFM即应用层管理节点接收到故障源上报的源故障信息时的资源拓扑树图,在该图中,虚拟应用1在00:01产生了故障B由于延迟,在00:04才将故障B上报到VNFM,在00:02时该虚拟应用1对应的虚机1已经从主机1迁移到主机2,并且而此时该应用所在的虚机,已经从主机1迁移到了主机2,即此时对于虚机1来讲,其上游物理资源层的资源节点为主机2;在主机2产生了故障C,在主机1产生了故障A。如图1-3所示,为产生故障时的资源拓扑树图,此时,虚拟应用1对应的虚机1连接的时主机1,即此时对于虚机1来讲,其上游物理资源层的资源节点为主机1,在主机1产生了故障A。那么对于虚拟应用1产生的故障B对应的关联故障应该是关联分析到主机1上的故障A,而不是主机2上的故障C。

具体的,考虑到资源节点变化和故障上报延迟的问题,便于准确处理关联故障,资源拓扑树包括预设时间段内各资源节点和各资源节点对应的有效时间,即资源拓扑树是一个可存储一段周期,内的全部拓扑信息,并记录各资源节点有效的时间范围,当故障上报分析时,根据故障产生的时间关联到对应的资源节点进行分析。值得注意是,这里周期可以根据具体情况进行具体设置,优选的设置为在一天内。

具体的,在根据产生时间查找对应的资源拓扑树之前,还包括:检测各资源节点变更,对资源拓扑树进行更新。即实时采集资源节点变更,实时更新资源拓扑树扑,并且对历史资源拓扑树保存,便于后期基于时间的资源拓扑树查询。资源节点在发生变更后,会保持最近一段时期内的资源拓扑树,并记录相 关资源节点的有效时间范围,当故障由于网络延迟或其他原因补充上报时,能够根据故障的产生时间,定位到正确的资源拓扑树,便于后期准确的进行故障关联。

具体的,新增资源节点和/或删除资源节点;对资源拓扑树进行更新包括:当检测为新增资源节点时,在资源拓扑树中增加该资源节点,并且将上报新增该资源节点的时间作为该资源节点有效时间的开始时间;当检测为删除资源节点时,上报删除该资源节点的时间作为该资源节点有效时间的结束时间。

为了得知故障源的产生时间,可以获取接收到故障信息的接收时间和上报的延迟时间,根据接收时间和延迟时间得到故障源的产生时间。应该理解为其他可以得知故障源产生故障的时间都包含在内。

具体的,在上述步骤S103中,根据位置信息和资源拓扑树获取故障源的关联故障可以根据位置信息找到故障源在资源拓扑树中的资源节点,根据预设关联规则和故障源的故障类型从资源节点上游的故障信息中识别出故障源的关联故障。根据预设关联规则和故障源的故障类型从资源节点上游的故障信息中识别出故障源的关联故障包括:当故障源发生在物理资源层时,不进行故障关联识别;当故障源发生在虚拟资源层时,根据归属的资源节点,查找与资源节点连接的物理资源层的资源节点,获取这些节点上的故障信息,根据故障类型和预设关联规则筛选出物理资源层的关联故障;当故障源发生在虚拟应用层时:根据归属的虚拟网络功能单元,查找与虚拟网络功能单元连接的虚机,获取与虚机连接的虚拟资源层的资源节点,获取这些节点上的故障信息,根据故障类型和预设关联规则筛选出虚拟资源层的关联故障。

为了更好的对故障进行关联分析,在根据位置信息找到故障源在资源拓扑树中的资源节点之后,还包括:根据位置信息关联到资源节点的对应的资源对 象上。

由于虚拟化环境的各层产品,都是支持跨厂商,可能不断的引入新的厂商产品,如接入不同的虚拟化平台,这些不同厂商的故障信息都是不同的,因此故障的关联关系需要动态更新。具体的,在根据预设关联规则和故障源的故障类型从资源节点上游的故障信息中识别出故障源的关联故障之前,还包括:动态更新预设规则。具体的更新,可以是虚拟化的各层产品发生更新,如增加虚拟化应用,增加新的虚拟化平台时,通过手工或自动方式加载新的关联规则表。

进一步,为了更好的对各资源节点进行处理,便于快速的进行故障关联,可以对资源拓扑树中的资源节点进行建模,如图1-4所示,其中对故障按照资源类型,分为计算、存储、网络三类,各层的故障信息通过故障采集模块进行适配,提取出类型信息,即将故障分为计算类型故障,存储类型故障和网络类型故障。具体的:

物理资源层:

网络:路由器、交换机、物理端口

计算:主机

存储:主机、存储

虚拟资源层:

网络:虚拟端口口

计算:虚机

存储:云盘

虚拟应用层:

虚拟应用层的故障根据告警码划分不同的类型:网络、计算、存储

虚拟应用层的故障挂载到其对应的虚拟网络功能单元 (Virtualised Network Function,简称VNF)VNF下,后续关联时,根据位置信息,与虚机、虚拟端口、云盘等建立关联关系。

值得注意是,通过建立相应的模型,可以基于虚拟化分层的故障关系展示,能够根据虚拟应用层,虚拟资源层,物理资源层这3层来展示虚拟化下的故障关联信息,如图1-4所示。当一个故障关联多个可能的上游故障时,根据权重的高低决定展示的先后顺序,帮助用户确定定位的优先顺序。值得注意的是,这里的具体权重可以根据具体情况进行具体设置。

实施例二

本实施例的故障关联方法,如图2所示,包括以下步骤:

步骤S201:故障源上报故障信息即上报源故障信息;

步骤S202:应用层管理节点VNFM接收故障信息,通过适配提取出位置、类型信息;

步骤S203:应用层管理节点根据位置信息关联到对应的资源对象上;

步骤S204:应用层管理节点根据资源拓扑关系(即资源拓扑树)获取关联故障;

步骤S205:应用层管理节点将关联故障填入故障信息中,并存储入库。

实施例三

本实施例的故障关联方法,本实例中主要以接收到故障源上报的源故障信息,进行故障关联为例进行说明,如图3所示,包括以下步骤:

步骤S301:故障源检测到告警,通过简单网络管理协议(Simple Network Management Protocol,简称SNMP)SNMP或其他方式上报故障;

步骤S302:应用层管理节点接收到故障,通过适配处理,提取出故障类型和位置信息;

步骤S303:应用层管理节点根据故障位置信息和故障产生的时间,将故障关联到对应的资源对象上;

在该步骤中,具体的,物理资源层故障:根据位置信息,可以关联到路由器、交换机、主机、物理端口、磁阵上;虚拟资源层故障:根据位置信息,可以关联到虚机、云盘、虚拟端口上;虚拟应用层故障:根据位置信息,关联到对应的VNF上。

步骤S304:应用层管理节点故障采集模块通知故障关联模块,请求分析关联故障;

在该步骤中,关联故障分析的逻辑如下:根据故障产生的时间,检索时间范围内的资源拓扑树信息物理资源层故障:不分析;虚拟资源层故障:根据归属的资源节点,查找与其连接的物理资源层资源节点,获取这些节点上的故障信息,根据故障类型和故障关联规则(事先定义)进行筛选,如果有多个则根据权重选择。虚拟应用层故障:根据归属的VNF,首先查找与其相连的虚机,如果故障为网络类故障,继续根据IP地址查找该虚机相连的虚机端口,如果故障为磁盘类故障,则查找与该虚机相连的云盘。对于上述节点中存在的故障,根据类型和关联规则,筛选出关联的虚拟资源层故障。

步骤S305:应用层管理节点根据获取到的关联故障,更新故障的根源故障信息。

实施例四

本实施例的故障关联方法,本实例中主要以在关联故障后故障清除后的处 理过程,如图4所示,包括以下步骤:

步骤S401:故障源上报故障清除事件;

步骤S402:应用层管理节点接收到故障清除事件,从之前保存的信息中,获取到该故障的位置信息;

步骤S403:应用层管理节点将该故障从相关联的资源节点中删除;

步骤S404:应用层管理节点完成后续的故障清除流程。

实施例五

本实施例的故障关联方法,本实例中主要以动态更新预设关联规则过程为例,如图5所示,包括以下步骤:

步骤S501:门户将请求发送给应用层管理节点;

步骤S502:应用层管理节点负责完成故障关联规则表的导入,返回响应信息;

步骤S503:门户显示导入结果;

步骤S504:当厂商支持自动通知接口的场景下,厂商产品接入后向应用层管理节点VNFM发送通知;

步骤S505:应用层管理节点接收通知完成故障关联规则导入,并返回响应。

值得注意的是,虚拟化环境中引入新的厂商产品,厂商提供产品的故障关联规则表,描述本产品与上游产品故障之间的关联关系,当厂商不支持自动通知接口的场景下,通过VNFM门户发起手工导入。

实施例六

本实施例的故障关联方法,本实例中主要以检测各资源节点变更,对资源 拓扑树进行更新过程为例,如图6所示,包括以下步骤:

步骤S601:检测到资源节点变更,向应用层管理节点发送变更通知;

步骤S602:根据变更类型,更新故障资源拓扑树。

在该步骤中,具体的更新规则如下:如果新增资源节点,则在故障拓扑中增加新的资源节点,设置有效开始时间为上报时间。如果修改资源节点且涉及到拓扑位置变化,则在老位置的节点上修改有效时间(将上报时间设置为结束时间),并在新位置上增加新的节点,且有效开始时间设置为上报时间。如果删除资源节点,则将该资源节点的有效结束时间设置为上报时间。

实施例七

本实施例提供一种故障关联装置700,如图7所示,包括接收模块701、获取模块702、拓扑模块703和关联模块704:

接收模块701用于接收故障源上报的源故障信息,源故障信息包括故障源的位置信息;

获取模块702用于获取故障源的产生时间;

拓扑模块703用于根据产生时间查找对应的资源拓扑树;

关联模块704用于根据位置信息和资源拓扑树获取故障源的关联故障。

本实施例还提供一种故障关联装置700,如图8所示,还包括更新模块705,更新模块705用于在根据产生时间查找对应的资源拓扑树之前,检测各资源节点变更,对资源拓扑树进行更新。

进一步,各资源节点变更包括:新增资源节点和/或删除资源节点;更新模块还用于:当检测为新增资源节点时,在资源拓扑树中增加该资源节点,并且将上报新增该资源节点的时间作为该资源节点有效时间的开始时间;当检测为 删除资源节点时,上报删除该资源节点的时间作为该资源节点有效时间的结束时间。

进一步,获取模块702还用于获取接收到故障信息的接收时间和上报的延迟时间,根据接收时间和延迟时间得到故障源的产生时间。

进一步,关联模块704还用于:根据位置信息找到故障源在资源拓扑树中的资源节点,根据预设关联规则和故障源的故障类型从资源节点上游的故障信息中识别出故障源的关联故障。

进一步,关联模块704还用于:在根据预设关联规则和故障源的故障类型从资源节点上游的故障信息中识别出故障源的关联故障之前,动态更新预设规则。

值得注意是,本实例中故障关联装置可以在虚拟化管理系统的应用层管理节点(NFVO和VNFM)上实现,推荐在VNFM上实现。首先VNFM能够同时连接物理资源层、虚拟资源层和虚拟应用层系统,具备关联的可能。其次VNFM根据ETSI NFV的定义及业界当前的普遍定位,位于NFVO的下游,在VNFM网元实现故障关联后,NFVO可以直接复用此成果。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,上述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

以上实施例仅用以说明本发明的技术方案而非限制,仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解,可以对本发明的 技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1