一种网络故障探测与定位的方法

文档序号：7897880阅读：243来源：国知局

专利名称：一种网络故障探测与定位的方法
技术领域：
本发明涉及计算机网络技术领域，特别涉及一种网络故障定位的方法。
背景技术：
随着通信技术的高速发展，网络规模的不断扩大，网络复杂性的日益提高，为了提高服务质量和降低运行成本，对网络管理系统的要求越来越高。其中，故障管理是网络管理中最基本的功能之一。网络的可靠性是实现网络系统功能的基础，而要保证网络的可靠运行，故障管理是必不可少的内容。故障管理的目的在于确保网络系统的高稳定性。在网络出现故障时，故障管理系统必须及时发现故障部位。故障管理的日常工作包含对所有节点动作状态的监控、故障记录的追踪与检查，以及平常对网络系统的测试。随着网络规模的不断扩大和网络复杂度的日益提高，故障管理的重要性和难度也日益加大。而故障定位作为故障管理中的一个核心功能，在现今越来越复杂的网络中发挥着尤其重要的作用。为保障网络的正常运作，需要有效可靠的故障定位技术。但是由于网络中被管设备数量巨大、类型繁多、连接复杂，并且每个设备的告警事件都会上报给网管系统，所以当网络中发生故障时，由于告警数据庞大，运维人员无法快速定位故障源，从而影响故障的恢复和业务质量的保障。而且随着网络规模的不断扩大，各类业务量应用的加大，以及故障在不同协议层的出现，对故障定位的要求也越来越高。故障定位不仅仅要能定位协议栈底层的物理故障，同时也要能定位协议栈上层的各类应用业务故障。而网络的不确定性及网络中的观测噪声，也为故障定位技术提出了新的要求和挑战。目前，从计算机科学的不同领域中派生出的多种多样的故障定位方法总的来说可以分为两类被动收集信息的故障定位方法和主动探测的故障定位方法。采用被动收集信息故障定位方法的网管系统往往需要目标系统具备提供内部消息的能力，并且不可能在用户感知到故障前检测和定位故障。且被动收集信息的网管系统已经无法满足越来越复杂的网络的需要。现实的情况要求更好的模型，算法和系统来应付更复杂的集成网络，系统和服务。而基于主动探测的网管系统，使用主动探测的方式对被管设备进行探测并对探测结果进行分析。具有主动、高效及自适应的特性，能以很小的代价尽早地获得网络、系统故障、服务失败及性能衰退等症状，从而为根源故障的分析提供依据。但是，主动探测的方式会为网络带来额外的配置开销及流量负载。首先，主动探测的方式要在网络中配置一定数目的探测站点以保证发出的探测能覆盖整个网络，并能有效地定位网络中发生的所有故障。而这样特殊节点的存在，就会引入对节点的配置和维护开销。所以如何设计一个高效且引入最小花销的探测站点选择算法就显得尤为重要了。此外，从选定的探测站点发出的探测也将给网络带来额外的流量负载。这就要求，选择探测的算法必须能对探测进行分析，找出最优的探测集合(探测数目最少且探测能力最强)，使得由主动探测带给网络的流量负载最小。并且，探测的选择算法应该具有自适应的特点，即能根据已经发出的探测反馈的结果，来决定后续的探测选择，这样才能最大化的利用网络提供的信息来帮助探测的选择从而达到定位故障的目的。专利文献CN101783749A中提供了一种网络故障定位方法和装置，通过将网络模拟成动态贝叶斯模型和进行概率推理来定位故障，但由于动态网络的复杂性，传播概率的不确定性和信度更新的时间复杂度，该发明的实时性较低。专利文献CN101350739A中提供了一种IP网络中的故障定位方法，其采用了一种将症状集合对应于相应的故障集合的算法。但该算法仅仅提出了一种假设性的推理，建立故障传播模型，并未与真实的网络进行交互性处理，因此准确度较低，在真实的网络中达不到算法的效果。文献〈〈Active Integrated Fault Localization in Communication Networks)) (Yongning Tmg等，Integrated Network Management，2005. IM 2005. 2005 9th IFIP/IEEE International Symposium on Integrated Network Management)中公幵了一禾中结合主动和被动两种技术优点的故障定位技术AIR，该技术虽然能达到相对较高的准确度和性能，但由于被动监听反应滞后的缺陷，严重影响该方法网络实时定位的性能，同时其方法对网络设备的要求较高。

发明内容
(一)要解决的技术问题针对现有技术的缺点，本发明为了解决现有故障定位技术中探测选择无法反映网络真实情况的问题，提出了一种优化的网络故障探测与定位的方法，根据模型特点和确定的性能门限选择不同的策略进行故障探测，用来实时发现和定位网络中的故障，降低了网络中注入的流量。(二)技术方案为实现上述目的，本发明采用如下技术方案一种网络故障探测与定位的方法，该方法包括步骤Si，根据网络拓扑实例选择探测站点并得到备选探测集合，建立探测依赖模型；S2，进行online选择，根据备选探测集合算出每个节点的互信息，选择互信息最大的探测发送到网络中，根据网络中探测返回的结果进行更新；S3，判断是否满足探测结束条件，若满足则将已选探测集合发送到网络中，转至步骤S6 ；否则继续执行步骤S4 ；S4，判断是否满足offline选择的触发条件，若满足则继续执行步骤S5，进行 offline选择；否则转回步骤S2，继续选择下一步的探测；S5，进行offline选择，计算每个探测当前的互信息，选择互信息由大到小的N个探测发送到网络中；S6，根据网络中的探测返回值分析确定最有可能的故障节点。优选地，在步骤Sl与步骤S2之间，还包括步骤Sl ‘，周期性地选择一组探测检测系统中有无故障存在，若存在故障，则进行步骤 S2-S6的故障定位。优选地，所述备选探测集合由从探测站点到剩余所有节点的路径组成。优选地，步骤S3中，所述判断是否满足探测结束条件具体为根据更新后的各探测的互信息，判断已选探测集合的互信息是否大于预设的结束门限值。优选地，步骤S4中，所述判断是否满足offline选择的触发条件具体为计算当前已选探测集合的情况下offline选择的性能值，判断所述性能值是否小于等于预设的性能门限。优选地，步骤S4中，若不满足触发条件，则首先更新备选探测集合并将步骤S2中所述互信息最大的探测加入已选探测集合，再继续执行online选择。优选地，步骤S5中，选择互信息总和正好大于预设的结束门限值的前N个探测。优选地，步骤S6中，根据所述探测依赖模型中探测依赖矩阵的值来排除不可能产生所述探测返回值的情况，从而确定最有可能的故障节点。(三)有益效果本发明的方案根据模型特点和确定的性能门限选择不同的策略进行故障探测，将 online和offline两种不同主动探测方式结合起来，发挥两种技术的优势，提高了效率并权衡了性能标准。实时地发现和定位网络中的故障，降低了网络中注入的流量，从而节约了网络资源，减少干扰。

图1为本发明的网络故障探测与定位方法的实施流程图；图2为本发明中online算法具体流程示意图；图3为本发明中一个网络实例的示意图；图4为本发明中所述网络实例的拓扑模型图；图5为本发明中所述网络实例的静态贝叶斯网络模型图。
具体实施例方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。首先，参见图1，本发明中网络故障定位方法的一般步骤为101)拓扑发现导入实际的网络拓扑文件，为下面的探测依赖模型做基础。102)选择探测站点，并得到备选探测的路径信息；探测站点指的是经过特殊配置的具有发送探测能力的实体，比如在一个IP网络中，需要选定一些主机来生成并发送探测到网络中。从选定的探测站点发出的探测要能覆盖到被管网络或系统中所有的待测实体。但是若只选择一个节点作为探测站点，在网络或系统中可能由于某些实体上故障的发生导致其他实体变得局部不可达。针对被管网络中节点发生故障的情况，特别是多故障同时发生的情况下，探测站点的选择算法主要是基于k条独立路径理论的启发式算法，在文献《Probe station placement for robust monitoring of networks》(Natu Maitreya，Sethi Adarshpal. , Journal of Network and Systems Management 2008 16(4)pages :351-374) 中详细介绍了该问题。在选定探测站点后，再根据网络拓扑得到备选探测的路径信息。具体地，从探测站点到剩余所有节点的路径组成了备选探测集合。
103)探测依赖模型根据网络拓扑建立探测依赖矩阵，即矩阵每一行表示一个探测，矩阵的每一列表示网络中的被测节点。在探测依赖矩阵的基础上，对网络所有被测节点和探测之间的对应关系利用静态贝叶斯网络进行建模。在贝叶斯网络模型中有两类节点，分别为被测节点Fi和探测Ti。为每一个被测节点指定一个先验概率P (Fi)，先验概率表示该故障节点初始发生故障的概率。为每一个探测指定一个条件概率表P (Ti I Fi)，表示此探测经过的节点i发生故障导致探测结果失败的概率。104)故障检测检测系统中有无故障存在，即组成系统的组件集之中有无故障组件的存在。因此当通过探测来进行故障检测时，首先要保证所有的组件都被探测到，其次为了提供尽量快的检测速度并降低给网络引入的负载流量，选择的探测数必须尽量的少。本步骤所进行的探测的目标是要选择一组尽量少的探测来覆盖整个系统或网络，这阶段的探测选择问题是一个二分覆盖问题，即NP完全问题。目前存在的两种启发式近似算法贪婪增加算法和贪婪减少算法，两者都是基于贪婪思想的算法，前者将探测选择集初始化为空，不断地选择能够覆盖最多尚未被覆盖节点的探测，直到所有的网络节点都已经被覆盖；后者将探测选择集初始化为所有探测的全集，然后不断地尝试排除某个探测，如果某个探测的排除并会导致某些节点不被覆盖，直至探测选择集中没有这样的探测。通过本阶段选定的探测对网络的所有组件进行检测，以确定系统中有无故障存在，若存在故障，则进行下述步骤105-107的故障定位的探测选择。105)online算法首先定义一个目标函数，即互信息函数I (X | T)= H(Χ|Τ)-Η(Χ|Τ, Τ*)，其中，X表示系统状态，T表示已经选择的探测集合，Τ*表示当前探测； Η(Χ|Τ)表示系统在观测到探测集合T之后的剩余不确定性(即在观测到探测集合T的返回值后，系统状态仍然存在的不确定性，是观测结果的概率值)，而H(X|T，T*)表示系统在观测到探测集合T以及当前探测Τ*后的剩余不确定性，I (X ；τ*IΤ)也就是表示探测Τ*所能够获得的信息量。该函数是用来评价一个探测的质量，即能够减少目标网络不确定度的大小。在定义互信息函数的同时设置一个探测集合选择的结束门限值。online算法流程图如图2所示，在第一轮选择探测时，因最初设定的每个节点的先验概率一致，则循环整个备选探测集合，算出每个探测的互信息，并选择互信息最大的探测发送到网络中。在实际的网络中，简单的探测比如PING或TRACER0UTE操作工作在网络层，可以用来检测链路或节点的故障；一些更复杂的探测可以用来检查网络的带宽、流量、 IP包的平均大小以及丢包率等特性等。这些探测的结果成功则为1，失败则为0。根据返回的探测的结果，更新每个节点的后验概率，后验概率的计算方法为
_4] Postprior(PaiTi) | T1) = p{Tt = 1) Π ρ( ] = 0) Π piN=11 7； = 1)
τ卢TIT1NjEN0其中，Ti为当前接收到探测结果的探测，Pa(Ti)为Ti在贝叶斯网中的父节点，T为所有探测集合，N0为Pa(Ti)中包含的节点，T/Ti表示探测集合T减去Ti探测剩下的探测集合，函数ρ ( ·)表示概率分布函数。若此时已选探测集合的互信息大于结束门限值，则停止该过程，输出已选探测集合作为结果，结束探测选择；否则，在更新了的网络模型的基础上，执行下述步骤106(计算算法的性能值判断是否转到offline算法，若不满足触发offline算法的条件，则继续循环备选探测集合，计算每个探测的互信息量，并选出最大信息量的探测作为当前已选探测)。
106)计算算法的性能值本步骤是本系统的核心，下面将详细说明本发明的目标是通过自适应和强反馈的探测算法来修正网络的特性以适应被管对象的动态变化，确定合适的性能门限，达到主动探测算法在多性能标准下的最优。尽可能实时的探测和定位故障，同时尽可能的减小向网络中注入不必要的负载，以减小对网络本身的干扰并节约能源。可以用下列数学表达式量化表达上述目标
权利要求
1.一种网络故障探测与定位的方法，其特征在于，该方法包括步骤Si，根据网络拓扑实例选择探测站点并得到备选探测集合，建立探测依赖模型；S2，进行online选择，根据备选探测集合算出每个节点的互信息，选择互信息最大的探测发送到网络中，根据网络中探测返回的结果进行更新；S3，判断是否满足探测结束条件，若满足则将已选探测集合发送到网络中，转至步骤 S6 ；否则继续执行步骤S4 ；S4，判断是否满足offline选择的触发条件，若满足则继续执行步骤S5，进行offline 选择；否则转回步骤S2，继续选择下一步的探测；S5，进行offline选择，计算每个探测当前的互信息，选择互信息由大到小的N个探测发送到网络中；S6，根据网络中的探测返回值分析确定最有可能的故障节点。
2.根据权利要求1所述的方法，其特征在于，在步骤Sl与步骤S2之间，还包括步骤Sl ‘，周期性地选择一组探测检测系统中有无故障存在，若存在故障，则进行步骤S2-S6的故障定位。
3.根据权利要求1所述的方法，其特征在于，所述备选探测集合由从探测站点到剩余所有节点的路径组成。
4.根据权利要求1所述的方法，其特征在于，步骤S3中，所述判断是否满足探测结束条件具体为根据更新后的各探测的互信息，判断已选探测集合的互信息是否大于预设的结束门限值。
5.根据权利要求1所述的方法，其特征在于，步骤S4中，所述判断是否满足offline选择的触发条件具体为计算当前已选探测集合的情况下offline选择的性能值，判断所述性能值是否小于等于预设的性能门限。
6.根据权利要求1所述的方法，其特征在于，步骤S4中，若不满足触发条件，则首先更新备选探测集合并将步骤S2中所述互信息最大的探测加入已选探测集合，再继续执行 online 选择。
7.根据权利要求1所述的方法，其特征在于，步骤S5中，选择互信息总和正好大于预设的结束门限值的前N个探测。
8.根据权利要求1所述的方法，其特征在于，步骤S6中，根据所述探测依赖模型中探测依赖矩阵的值来排除不可能产生所述探测返回值的情况，从而确定最有可能的故障节点。
全文摘要
本发明涉及计算机网络技术领域，提出了一种网络故障探测与定位的方法。具体地，根据模型特点和确定的性能门限选择不同的策略进行故障探测，将online和offline两种不同主动探测方式结合起来，发挥两种技术的优势，提高了效率并权衡了性能标准。实时地发现和定位网络中的故障，并予以均衡，降低了网络中注入的流量，从而节约了网络资源，减少干扰。
文档编号H04L12/26GK102299829SQ20111025707
公开日2011年12月28日申请日期2011年9月1日优先权日2011年9月1日
发明者刘丰, 杜刚, 杜海, 纪烨, 陈纲, 雷振, 黄睿申请人:北京市天元网络技术股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘丰;陈纲;雷振;黄睿;纪烨;杜海;杜刚
技术所有人：北京市天元网络技术股份有限公司
我是此专利的发明人

上一篇：一种信息通知方法、系统及无线通信终端的制作方法
上一篇：具有螺旋沟槽加强结构的振动板的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。