用于识别通信网络中的故障的方法和系统的制作方法

文档序号:7951263阅读:197来源:国知局
专利名称:用于识别通信网络中的故障的方法和系统的制作方法
技术领域
本发明涉M于识别通信网络中的##故障的技术,并且特别4树其可能 用于通ii^布式^US管理环^^^i 而开发。
背景絲
确^Mt客户的服务,即保ii^续ity^供服务、防止^f^r育^uu户察觉的 问题,是通信网络和服务的运营商的主^f壬务之一。这^f壬务包赠M集和 处現表自于网络,以;Mi其是来自于构成它的组成部分的网络部件的告警信令, 识别问题的存在(监督),以分析并因此以尽可負^^近于#^为"#^因,,这样 的方式识别问题的原因(诊断),以A^:终^g^决^^r故障所需要的所有的动 作(修正)。特别重要的在于处理的前两个步骤,即网络的监f^原因的诊断, 其包括从网络中收集告警和筝ft,筛选它们、以及然后分析问题和识别将要恢 复的^W^的主^"原因的^f亍为。
因jtb^供的日益基于因特网协议(ip )范例的最新一代网络和服务是技术、 网络部件和不同功能(接入、传输、控制、月艮务、内叙良务器)的組合。在所 述的环嫂中,在停用^的才^^因的识别可^i非常复杂的任务。而且,通常
动作是在网络段之间共享的,并JM艮少有专ikA士能够处理多种网络中固有的 复杂性(其中有xDSL接入、ATM接A^传输、IP接入(NAS和BNAS )、 IP 传输、呼叫控制和服务节点)以M理多种服务(其中有通过xDSL接入因特 网、ATM、 SDH和WDM传输、VPN连接、基于IP的絲(VoEP)月PL务、 PSTN和VoIP月gj^之间的互联)。
通常,当赠^A于网络的一转分中时,或者更M的^A于网,件 (设备)上时,所述设备产生大量告警,这样技术人员淑W^解问题的才i^ 因并以最少的时间解决所述问题。
多技术网络中故障管理领域的技tt^L"fi4^面向实现分布iya念、以 获得处理负载的共享和平衡可缩放性的固有局限的集中系统。
在上述结构中,典型的功能划分是划分^^fig^次。逻辑上最接近于 网络部件的第一个层次^f亍告警收集、过滤的功能,以;s^特定的网络技术领 ^Ji^告警的最初处理的可能功能。第二个层次通过交叉检验关于网络的各基
础域的信息^f亍告警处理的功能。^,第三个层次財服务的影响的立场处 理告警。
这样基于集中处3^L念的方法,差本上来自于TMN (电信管理网)范例 的TLC环境中的合并,以;SJiit^5U^于网^f理分层的原理,即该方法在 网^f^^服^f3g^定位最高级的处理操怍,向网元管J^委&网络亊降的
传播/逸虑的l^功能。
从集中管理的原理开始,已经开发了多种故障管理^^,包括基于规则的 #^技术、密码>^支#基于人工智能的技术。在此不讨论后者,因为暂时它 们^^上只是高级学^9f究的课题。
基于规则的,^Mt形式并且有时与其它处理技M合,大fel^L广 泛应用于集中故障管理系统的方法。
上^法U于一^EM测的"知i。v率,,中的定义和务賭,这iaMJ'j对于所述 域的管理是尽可能广^M"尽的。数据处理由"細'J引擎"^^亍,所述"細'H1擎" 实i^!A包含于"工作内存"中的数据开始的规则应用策略,其中^t理情况的动
态^_新的描述。
尽管它有效,这在另一方面由它在商业应用中的广泛4M来证明,但是该
方法表现出多种局P艮,例如它对上下文知识的依赖性,ili式地说首先:tt^本 领域"fit技^A员的个人技术,并由此容易有分歧和错误,以及不可能采用开
始于已经"^f亍的处理的自动学习策略。
上ii^法的更进一步的局限由它难于灵活适应不断^l的现实以4于处
理非确定的行为(例如,网络f^丢失的情;Xisl者伪造^的出现)构成。 尽管基于MJ'J的棘理论上也可以实现告警相关寸^#^因分析的事实,
成详::规则而显著削弱,既由于网络结构的复杂性又由于不同^^供商"定的 技#解决方案的存在,逸寸于主要的服^#应商的网络来"^^典型的。
因此,最广泛的基于細,J的系统,虽然构成了iis'J告警相关,l^^^因分 析的目标的候选,但是才娥网^^层的原理,典型郝^Mt实SU^限于某 些潜^>可相关的告警的大量聚集和称之为"下游压缩"或者告警减少(由派生 告警和主告警之间的区别引起)。
上述列出的概念在用于告警信息的集中处理的某些方法和系统中可以找到
应用,例如WO-A-02/78261和US-B-6 694 362中所描述的,M自提出了减少 冗余告警和4t^警的问题以及其影响分析。
基于密码4^支术的方法,例如US-A-2003/204370中描迷的,由告警相关性 和根原因分析的适当识别构成主题的51起关注和原始方法。这个技术基于,
的环4。该方法以两个步*示
-第一步涉及参考;^型的定义,在参考模型中所管理的网络的,和告警之 间的因果关系表示为二速制代码的朝刚(其中1表示存在赠和告警之间的因
果关系而o表示;fq^在因果关系)以;s^后^Mt过应用代码处理(密码本w^)
技术简化il种情况;以及
-第二处理步 ^_114在于模式匹配算法的^^亍中,其中^^定的时间 间隔内发现的,组与识别的密码本tb^,以这种方i^角定已经引起告警的故障。
通过应用汉明多巨离的栖L念,适合于^M理论,这个系,过即^^丢失一 些告警或者存在伪造事件的情况下仍确保反向^M宗到根故障的可能性来保M 理中的一定的灵活性。
这个方法的形式简练和线性已錄该iJl的文献中形成了关统泉。然而应 当指出,在该方法的主要才靜月领域中,它^了一种通过^^论问题的复杂性 #^多到初始的建模阶段而面向简化<^行时处理的技术的事实,ittol"不是微不 Ait的并ib^此该方法本身没有提^f封可解决方案。
因此,该方法的推广应用能够由在多技术和多提供商环境中为特别复杂/ 组合的网鋭&置创建因^t型的^i见困难而削弱。
通常,与集中方法关联的主要局p艮在于随着管理的技术的改变以;sj^着网
络在^L^和复杂^面的增加,应用的灵活',可缩放性剩氐。为了UW斤述
局限,提出了一些基于分布式处理的原理的管麟构。目标在"f^^fm^^、
于集中处理的所述方法受到网络管理功能的分布式处理原理的启示,其又关联
到NGOSS (下一^RJMt系^软泮)管理结构的定义。因为用于管理系统的明 显的分布式结构的概念是相对新的,扫t泉JiiL献的数量与涉及集中式结构的 文献数對目比数量仍粉艮少,集中式结构从历^Ji;^blL^广^WM的。扭 方面可以参考NGOSS Technology Neutral Architecture , document TeleManagementForum TMF053 release 4.0,第7 - 9页,2004年1月。
WO-A-2001/86457 ^U^供了一个实施例,其中使用"自主代理"技术实现 NGOSS原理。^Hf的解决方1^IJU&基于分布式^g的管m构的。每个^3g "iiW亍网元(NE)的模型^^if过^^为"网^f理单元"中的聚集协同实现管理 功能。参考这个^^J, WO-A-2001/86457描述了使得能够确定关于网特 件的#^、因的方法,和使得能够确定作为,包括在故障中的资源的复杂性的 处理过程。尤其,该文档描述了在基于代理的分布式结构上实现的告警相关的 方法。
申请人注意到WO-A-2001/86457中公开的解决方案^上导致了集中特 性的算法,该算法从告警(源DC)的设M件(DC)开始,考虑属于从告警 的DC到其服务用户的对等体(DC熟人)的数据i^圣的所有DC。在这种处理 类型中,代渡不充当实际的角色,他们的角色l^Ji^P艮于网元的模型化(DC 中物衝逻辑设备资源的模型化)。^S之间信息/数据结构的交^^上是不存 在的,唯一可能的例夕卜是由DC进行的^^因识别^jt的信令,其中#^、因已 经定位到作为源DC的DC。

发明内容
^Ui面提到的内容,集中式系统使用不同的技术和方法论,其中每一个 才娥遵循的方法絲出不同的优点和铁泉。
然而,预见与4^I分布式结构关联的优点的解决方^^现它们在内在复杂 性方面的局限性,这种局限'I"錄自于^^个处錄于网络资源之间的^I关系、 拒绝佳月告警的信息内容,it^M上是以无差别的方式对待的。所U杂性 在某种禾I^上由引入的没有进一步说明的处理步^^斤掩盖(例如,识别两个对 等服务用户之间的数据路径的概念),然而,对于全部结果的目的,当然决不是
微不;ut的该解决方:tAi^原理。另外,才娥贿技术的所錄决方案不处 理多个故障的情况(#^为"非唯一的根原因"),其中给定网络结构^MP件之间
的客户端/服务器关系,多个潜在可相关的告警可以实际上归因于不同的故障 一旦第-^t障已经用一个才M^因值识别出来,就不辨^lt据i^圣上她可能 的故障。
另外,需要考虑之前列出的问题以还要更明显的方式出现于由下述内容区 别的上下文中的事实
-由管理应用管^^表见的告警数量随着网^ 的增加而不稳定,加; -难于提供使系统用户能够确定在大量告警面喻那些网络资源上实际需要 千预的高级功能;以及
-难于识别用于处理关于不同^UU页域的网^#警的线*|^目似解决方案。 因itb^发明的目标是提^-种消除之前列出的铣存、的^W决方案。 才 本发明,通过一种用于^if信网络的"^且网元中定位赠的方法ii^ 上述目标,每个网元具有与^目关的相应4^:理实体,并适合于在受所述故 障影响时产生一组告警,该方法包紛口^^斤述网;^^测到所述故障,那么在每 个所述的处理实体中把由相应网元产生的告警组分类到第一""i"警类中(表^"内 部/连续,,故障),以及如果其它实^it知网元出l^斤述^W,则分类到第二告警 类(表示"外部"故障)中,以及根悟所迷分类步骤的结果选择所述网元中的一 *为负责故障的网元。
对于本发明的目的,";^t理实体"^^木着与单个网^目关的处理实体, 或者位于网元处理器中或者位于网;^卜部。如果是外部的,其对应于与该网元 关联的管理顿。
优选的,如果故障与已经把自己的故障状态传*网元的网元资源相关, 她第一类中的告警组分类到第4警子类(表示"内部故障")中,以及如果 故障与没有把自己的故障状态传#网元的网元资源相关或者故障不与网元资
源相关但是已经由网元资源检测到,^te^警组分类到第二告警子类(表^"连 续"紀章)中。
te的,选4^骤由斜目互间具有物3SiL者逻辑连接的网iti且(即物Sil 還辑相邻)之间交换与对应的告警组的类型有关的信息来执行,这#^个^4 处理实体可以H^;斤述的类型^it过预定的細寸识别,直接影响的网元(即, 对故障负责的网元)。
M的,至少分类处理、以》^有利^4^i^^处理,以分布方式由与网;^目 关联的倾胁。
本发明也涉^^应系#可计#4^1^产品,可加载到至少一个计^的 务賭器中,以及包括当产品运行于计算机上时用于^W亍本发明的方法的步骤的 软件^5辆分。如在j^M的,^SJt样的计^4財l^产品意p絲等同于狄 包含用于控制计算机系统的指令以协调本发明的方法的性能的计算机可读媒
介。^A"至少一个计^4几"显然:^M"强调以分布^/^^化形式实5t^发明的
可能性。
因jtb^匕描述的配置的M实施方式是一种用于由基于代理的管理平台处 理多技术TLC网络的告警以賴于识别问题的^^因,或者用于集中最少数量 的原因集合的方法。尤其所#法解决故障定位、简4睹警处理的常M^怍以 ^^可負化列出的所有步骤中限制告警的数量和处理的信息量的问题。目标是 向技^A员呈现网络问题的综合视图,以最小化监^i貪断的步骤,以及使技 术人员能够以,的可能时间或者才Nt操怍形式以与问题的严重性最协调的方 式^l动作纠正问题。
扭b^述的M参考结构是分布式的,以及M的面对每^H殳4^个处理 实体(例如, 一个代理)的逻^4在,其具有随U生的单独处理与每^"i殳备 相关的告警的能力。
有利地,在此描述的解决方案《吏用如在WO-A-2005/018249中描述的 NGOSS的适应结构。这个文才射兑明了基于自主^^的管理平台,其处理影响当 前管理平台的主要问题的解决方案不充分的可缩放'脉灵活性、网络目录与 网络的不严密和不同的对准。
断描述的解决方案与WO-A-2005/018249中提出的平台相比可以在^^T 情况下应用于更常用的环嫂中。
以尤^it的方式,^ ^b^述的解决方案设想设备和管理^R^之间一对一 的关联。描述的解决方案设 ^#故障;^1的责任区域(负责>(镇的标识) 中选择^K^i)U^fm障定位的步骤,il^于故障中包含的^^之间交换的聚 集信息的l^上^f亍。
建议的过程可以停止,拟艮,是否有关于负责的^^管理的设备的资源 或者与其相邻的资源上留下不确定性。当代躍痴艮的告警不能够区分设备J^
生的故障^^生于用于两个网;^间的互连的资源^"上的故障^£^1生于不
同设备的资源上的故障时,所述不确定性可食汰生。随后识别^ja资源的步骤 能够用赠原因的准确指示解决该不确定性。
在可选实施方式中,通过向网天提供能够^t一个或者多个上i^t理步骤
的内部处理实体,那些步骤也可以由网元自己旨。^it种情况下,也可以不 用4饭。例如,负责故障的网元的选##骤(识别负责的网元)可以在故障中 涉及的网元之间交换的信息#的J^出上^y亍。
^it一步可选实施方式中,选^骤可以由与代^V或网it通信的集中式 单;U^亍,通it^故障J^的责任区域(识别负责^3S)中、或者负责故障的 网元(识别负责网元)中选择^^, it^故障涉及的网;^者^fJ(^之间交换的 或者集中式单元收集的信息集合的M上执行。
开始于定义拓朴性质的关系和网;^间相互影响的关系(因此产生网& 间的"友ilr ),所述的解决方案能够减少为了故障识别处理的目的而必不可少的 交换和使用的信4lt量。减少使用的信息以及引入能够逐步地集中处理问题的 子过程证明是提议的方法所提供的最大的优点。
在其可能的实施方式中,本发明的方法包括四个主要步骤。
第一个步骤在于由与对由相应网it^送的告警的W:或者告f^:感的网元 相关的每个^3gii行接收。
第二个步骤定^者选择负责,的4^,冲娥由包絲网it^送的告警
的完塾性,能够以简单的方式和具有"f^程度的可能性识别物^LL最接近的发 生故障的网元。因为管理所述网元的代理是典型一MS^:大量信息(用于
故障识别、告警相关、以及对服务的影响)的那一个,随后的步骤会由所述代理錄。
在第三个步骤,^识别故障所#的物理资源,在第二个步^^#^负
责故障的代理利用在第一个步骤收集的不可缺少的信息,识别M的网络资源。 笫四个步骤,告警相关性^^只别影响的资源,目标是识别在网络和服务协
议的不同层:^Ji哪些资源包括絲者可能潜^ii受紧^jt的故障^的性 能恶化。
应当明白在此描述的解决方案推翻了例如在上述引证的专利申请 WO-A-2001/86457中建议的方法,,描绘了把狄的重要t生归因于告警的信息内化情况的处理。虽然,通常涉;oij整个方法,但是&诚述的解决方案强调定 位紀章的责任区域的第二步骤的实員式,对》b^前已经作出了参考。
^jtb^述的解决方案尤其i殳想
"^^行的告警分类开始于关于告警类型和告警资源的信息;
-由代^ii行的处理的交易性(transactioiiality ),即^R^之间关于告警消息 的交換,开始于单独^^f^处理的结果;以及
"^3^之间的协作,其开始于单独和并行处理,导致由所有的相关代理(友 好4^)共享的4^P结果。
告警的分类是使能够参考告警的类型的功能,并_^ 不同〗 和严重性 的告警之间的区别的原理而^"在处理的^ft^"在变型。
总之,给定多技#多提供商的网络,^4tl^述的解决方^A针对识别开
始于网^警的^jE干涉的区域。告fK言息4皮视为用于5M宗网^障的处理过 程中^fM的J4^元素,该网络故障使它们通过由自治^3S (每个自治^3S实现 网元的模型化)执行的分布式处理,表见网元与周围网络域的关系集合,以及 通过消息交换与其它4^交互。


i^仅"f5Ut过举例的方式参考附图描述本发明,其中 -图l是由具有多个^3^的管理平台管理的网络(其包括多个网元)的示意 錄示;
國图2和3 A^示^W笛述的系统il^之内^^亍的处理过程的^^呈誦图4到11提供了^jH^述的系统iM的"^t序列的实施例;以及
-图12到14是怍为可能的本发明应用于其中的网络场景的例子的功S^图。
M实施方式
通过51 ^k发明的实施方式的某个示例的详细描迷,提供了指示本说明书 全文使用的某些术语的含义的术语表。
Yi^: ^JM^术儉'^^"指示实现网it^型4^^表示网元与周围网络域 (物SJiil者逻辑J^目邻的网元)的关系^的实体。此外,>^^,颠己置成网
元的^a^,即,它作为把网樣管理应用中絲的元件,提供用于与网元交互
的标准接口。因此/PUS是拥有身份标识^^求与其^R^ii信(例如,以, 的或者竟争的方式)以完成其任务的自治i^呈。这个通信通过消息异步交换和 使用定义明确的语言和在平台之内共享的语义而获得。在下文中描述的实施方
式中,假设各自的和"^—个考虑的网元具有相关联的^^。 ^^Mt应网; L^ 间的一对一的对应由把^US指示为网元的管理部件和把网;U旨示为被管理的实 体#示。然而,术發'^fW,和'被管理的网元"可以相互交^f吏用以指示不同 的4^t^之间和网;^间的关系。
4^理《沐它是与位于网^t理器中或者在网^NP的单个网;^关 的处理实体。在第4情况下,;Wt理实僻y t应于与网;^目关的代涯。
赶攀所谓故障(出错)是损害物舰者逻辑网络资源的功能并且可被检
测)的^^可赠。通过网it^r测到问题,故障引起它自己辦状;^f言令中的修 改,例如发送fWt令或者网錄示的变量值或^i十数雜的变化。因離令
中的变^^#网;^间传播的故障信令。
普夢.告警是由NE传iH^f理它的^^的网络辨。尤其,告警是特定 情况发生时由网元以异步方式通知的自发事件,由网元自己标识为异常。网元 发送给管理它的实体的通知包括能够表征它的信息组。告警可以以n元組 (d,n,r,t)的独特方式识别,其中d-告警描述(或矛呵食L^因"),n-网元的唯一 标识或者检测到告警的代理的唯一标识,F告警的资源(由故障影响的NE的 物赋者逻辑资源的唯一标识),t^警处的日粼时间。对于某些类型的告警, 关于资源的信息不能够明确给出,只要它已经由告警类型间接地指出。以扩展 的方iC^虑到因为告警是状态变化的通知,所以^l过门限的it知、以及其它 ^^也由^|皮管理设备的变^* 亍4^句#^的4^^产生。
普夢逸ii^由一个NE产生并涉;M目同故障的一组告警;这*警组由
NE通知它自己的4嫂。属于同一組的告警具有被称为物衝逻辑资源(它们之
间存在由网元的功肯M莫型描述的,关系)的特征。除了la^I于一个并Jbf目 同网元的告警以外,*为非相关资源。 一旦已经固定参考时间间隔和网元,
对于网元和管理它的代理就可^4在关于不同性质的故障的多*警組。
告夢^ff: i^l关于所有代理的并且可以回溯到相同的相关资源的所有告 警组的组。
普警逸类浙i^l每^i"警组的属性,由^S仅4^I关于所述网元的信息 计算,用于识别故障的位置或者导致关于网元的所述告警出现的故障。用于所 ii^法的类别伏i^fe是内部故障、持续故障和夕Kp故障。然而,第一类别"内 部/持续故障,,和第二类别"外部故障,,可以足够用于^it择对故障负责的网元的 过程中执行网元的第一it择。
Y"e^之々7^^:^f^系如果两个^3g包^^3^者逻辑相互连接的内部资 源,从而当这些资源中的一个受到故障影响时,这些资源中的其它资源也受到 该故障影响(或者至少检测出),那么它们是友好关系。换句话说,如果作为两
个4^之一管理的资源故障或者媒介资源的故障的结果,两个^^Ww与检测
到的^Uf相关的被管理网; b^^至少一付f^言令,那么它们^l:狄关系。 为了评估友^^呈度,不考虑服务告警而M虑Jt信^i殳备告警。因此作为故障 的结果,友好关系联^f^M皮管理的设备获得可以相互关联以及可能用于相
同故障的定#识别的信息^:据。i^t于网元同样有效友好关系包括在它们 之间具有物對目邻(当在两个被管理的网元之间没有插入4^管理的其他网元、 但可能只有不是由代理管理的网元时,两个被管理的网;^目互连接)或者逻辑 相邻(例如客户端-服务器关系或者对等关系)的关系的网元。给定告f^f言令, 友好关系识别仅关于告警资源的^^的所有可能的伙伴子集。由于^3^ff火伴 与^f^助其定向(target)伙伴的被管理设备的资源关^M^,给定一^^f言令, 只有通过所述告警资源定向的伙伴被认为是对于该告f^令的伙伴。给定一个 告f^f言令,两个4^(^之间的友好关系因jtb^靠设备类型、告警资源、以;sj斤述 告警类型。例如,在不影响网络的其余部分(例如指示X^故障的告警)的设 备内部告警的情况下, >(但没有那^"警的伙伴。不同的是,例如,如M虑 端口上的告警,伙伴t^l物^k^者逻辑^^接到所述端口的网元的代理。
j素^^: i^l在其中^了关于告^^且的^^因的责任区域中的^S。 通ii^伙^fR^之间交换类别信息和通itit择算法进行负责告警的识别。负责
^R^是具有用于识别关于考虑的超组的故障的最大量信息的代理。所述^m管
理设备,在所述设"^J^A故障,或者在最坏的情况下,故障^jt于与负责设 备相邻的资源上,不管它们是不由^m管理的资源,还是它们A^于相邻设备
的资源。
初命#源"与一个资源相邻的资源"t木着与给定的资源具有物^i^接关 系的资源组,直到属于代理管理的网元的第一资源。
遂^2^: it^^布式处理过程,通iti^个过禾到目互之间具有友好关系、 交换关于告警4生质的信息的代理,拟艮故障发生的责任区域中确定代理。
图1才Nt本发明非常示意'l^显示了网^f理平台,该平台包括在电信网 络N之中管理的多个网元(即,网络设备)NE。
该平台进一步包括
-多个4镇AG,每一个与各自的NE相关联并配置为扭行在后所述的操怍; 每个^^定义一个^Wt理实体;
-(逻辑)管^T应用MA,负责管^^莫型数据库MDB到不同AG的分 布式处理,用AG提供的信息监控平台的状态(包括分布式组件、域管理、性 ^i^控^口为了iiii^^适的负载均衡而进^^ AG之间的负载#^配的后续动 作);
-网络目录M,其可以包括分布式网络目录(inventory)和集中式网络目 录;分布式网络目录包括不同NE的更新的模型,以;5UU于所有实时或者准实 时任务(如供应、保证、性能、控制等),其中网络的配置和状态的更新信息对 于保iiE^任务的有效性是必需的;集中式网络目录对应于网络目录组件的通常
概念并用于非实时任务,其中对于集中式结构(例如这种任务是网络设计、网 络计划和容量趋势分析)機更新是不可能的;以及
-模型数据库MDB,其狄义和^f^平台、工作^f呈、細'、信息橫型和 方案的所有行为和功能方面的单独(逻辑)点。
如下文中详细描述的,把网元NE配置为用于产生由各自^^fU的故障 告警,以及用于向物S^者逻辑地与4li^接的其它网;^送故障信令。
图2为提出的方法4^供了凑"考^^呈图。
下文中列出并描述流程图的组件。
告警做(步骤100)
由网络中检测到故障的任何节点提示告警接收的功^~开始于通常的 等待(WATT)状态——并且由代逸实现。假设单个^^会收集由自己管理的 网itJL送的3i^为夢降的告警和由网元自发地产生的或者由轮询系统产生的告
警通知,该4fri句系统不间断iik4HiE设备上某些指示器的值以及M产^iM戈 理的通知。代理的告警接收功^£包^常在接收的告警上执行的£1>應换怍, 例如出虑振荡,&虑存留等。接收的告警^^在^^的械器中以供后续使
珊不详细说明。
与由网元产生故障告警并行(所述告警被提#^相应的代理),还有从网元 到其它网元的故障信令的传送,尤其是向物理或者逻辑相邻的网元传送。故障 信令可以由网元例:ft魂过填充包含在比特流中的OAM(运行、管理与维护)比 特而在网it^间传送。由另一个网it^:,信^H吏接收网元产生,告警。
负责,的^m的识别(步骤102)
每个单独^S^于有关告警的资源、故障类型、以及产生告警的时间的信 息来集合告警。然后,通过分布式算法,系统从接收到可以归因于相关资源的 告警的所有代理中识别出负责代理,特别地,系统识别拥有最大量信息的代理 以f^^U沐障识别功能,。所述f^管Mjt故障的网元,或者最坏情况是与 出错的资源相邻的网元。负责4饭的识别包^^只别已经向其通知了存在故障的 那些网元(即向其传送了,信令的那些网元),以及识别定位故障行为的限制, 即向不是向M播了故障信令的那些网元识别负责^S。 i^A因为负责故障的 网元是从其生成故障信令的网元。更胁的说,对于已经检测到已经^Cit知存 在故障的故障的每个网元(通过故障信令的传播),选择负责^^包括^a产生的 关于网元的告警(即故障)至少分类(通过^JU告警中包含的信息)到"内部/ 持续,,类或^"夕MP类,这將个网辆与对应的分类的告fK言息相关联,并且 ^il择中排除了与指示夕卜部故障的分类告^f言息相关的那些网元。因》让述每 个网it^H目应代理会与相应的告警类别相关。
本专利会^X^k/^^该方法的这个组件。
识别赠(步骤104)
可以仅^JU负责^SE所拥有的信,y^亍所述步骤,或者当负责4嫂的类别 不是"内部",还^^1负责4爐的伙伴所拥有的信息。故障识别可以由辦员进 行,该^t员^A^口Ji^负责4J(^^:下錄少的信息
-负责^R^的唯一标妒^和它对应伙伴的唯一标^^;
-负责4^的类别和它的每^c伴的类别; -负责顿接收的告警;
-在负责设备的类别不是"内部,,的情况下,负责4镇的伙^^理接收的告 警;以及
4a负责设备上的资源与伙伴网尤Ji的资源链接的拓4Kr息。 借助上述信息,#^员能够就出4^资源识别故障的位置。当已经识别出 出错资源的时候,!^t员会才^^令在负责^SJi输A/斤述信息。以这种方式, 负责^^将能够把由》诚收的告警与网络中识别的故障关m^。本专利不会 ii一步5^Ai亥方法的这^Hp分的细节。 向,员显示,(步骤106)
向,员显示故障的功能可以由负责代理通itA^l^面直接向,员执 行。提^^Mt员的最少信息如下 國负责^3g的唯一标识;以及 -出错资源的初;识。
在上iiit程完a后,系统切换回到等待(WATT)状态。
识别对负责故障的^^的基于^3S的分布式处理方法步骤(^Mf其定义为 "故障定位")更详细 :示于图3中;所述的操怍由所有^^定时刻接收告警 的代理并行⑩阡。代理接》^网;^送的告警的,被理解为已经#^亍了。 添艮图中标识的#^^呈^的由^^为标识的每*警组并#^阡,不同的 告警组同时出JJiL^单独处理的^^装置上。
将参考图4到ll进一步说明图3的琉程图的步Wil者阶段。^il些图中, 显示了通信网络的1分,其包括由才射己A到H指示的网元(具有关联的各自 的^^_絲示)。在其中,网元A和B表示通ii^WJi串联的网元D、 E、 F 连^^的IP装置,例如,网元D是SDH设备。包括网元G和H的这样的 连接的4分显示为从IP装置B延伸出来。才射己I指示不同网&间共享的服 务器,例如,DNS (^U月良务器)网元。
如所示的,图3的琉程图首先用来详^i兌明图2的琉程图的步骤102。因 此图3的;斜呈图开始于舰(图2的步骤100;图3的步骤200)关于至少一个 检测到的故障的告警,甚至是预^Ci的,的预测。同样地,图3的^^呈图 终止于i尸^对赠负责的实体(图2的步骤102;图3的步骤212)。
在图4到11的微图中,故障的^jl以辨X的形式示意,絲致网元A
和D之间的连接中断(以及因此A和B之间的连接中断)。应当,这样的事 件不实际^jt于或者A或者D内部,但^Jl"^影响它们两个。
下文中列出和描述图3的ii^呈图的部件。
告警组中对于每^警资源接收到的告警的关联(步骤202 )
^3^t从管理的装置接收的并^^^的告警皿的第一^ft^i旦合M 的告警,才^1^*警的资源区分它们。以这种方式,代理(^就可以为管理 的装置的不同资源处理不同的告警组。所述^ft使得能够对告警资源进行工作, 无论是存在关于所述资源的单个,*同时出现的故障。
因此,通过4^1其拥有的关于告警资源之间的逻#^赖关系(认为关于两 个逻辑相关资源,例如,如卡和端口, *定时刻活动的所有告警形成同一组 中的-"^分,其中参考告警资源是其它资源依赖的最高级別的告警资源)的信 息,代渡#^*定时刻告警的资源(^定时刻活动的关于物理或者逻辑资 源的所有告警形成同一组中的4分)组合M的告警,。
通过举例,对于给定的网元,让我们假没两^NI"警x和y由相应的代理接 收,其中x^(n,rx,dx,Q和y^(n,ry,dy,ty),其中n是网元的标&身,r是网络资源, d是告警描述,t狄出告警的时刻;如果x和y指向相同的资源(即,如果r^y ), 或者如絲网络资源rx和&之间存^:户端/服务器类型的逻#^关系,例 如rx是客户端ry ;O艮务器(然后告警组^t虑告警资源服务器ry ),或者如果它 们之间存在包辆逻#^#关系,例如r,包含在iv絲中(然后告警組辨虑 告警资源容器iV),那么它们属于同一組。
在^1且#^的结尾,将由以下信息标i^且
-已发送告警的网元的^^一标i v^;
-该组关联的网络资源;
-组标i ^ (由^^告警的^aSi^^;^M示iM^); -属于该組的第一付警发出的时刻;以及 -已经关联到该组的接收的告警的列l 实现告警^^且功能包括在^^中维护以下信息 4艮椐易毁坏的资源装备网元; -易毁坏的资源之间的包含关系; -易毁坏的资源之间的客户端/服务器关系;以及 -网> 收的告警。
之前列出的情;驢图5中以网元A和D发出LOS (信号丢失)告警和网 元F和B发出VP-AIS (虛通道-告警指示信号)告警#^示出。 为告警纟且计M别(步骤204)
在^^各个网元接收的告警集*来以把它们关^^各个产生的故障之 后,每个单独4嫂为对应的网元产生的告警组^f亍类别计算步骤。仅^ t接收 到告警的4^所拥有的信息4W亍所述计算。类别考虑产生关i^皮管理网^告 警资源的接收的告警的故障位置。在类别计算步骤的结尾,在某一时段接WJ 一个或者多个告警的每个4^具有:M^在告警资源的J^LU且合所述告警的信 息,以M于每个组,每个^S知道告警类型,即知itli发有关它自己所管理 的网元的告警的故障位置。
结M障类型,可能的告警类型例:W(口下所示
-内部故障;
摘故障;以及
-夕Np故障。
以下将更详细描述每个单独故障类型。
内部故障类别:告警考虑网元的物理资源,或者,更""tok^"虑网元内部 的物理/逻辑资源,尤其该资源在设备自己与周围网络通信过程中^fe^作用。 作为举例,对于某些网络技术(ADSL、 SDH/WDM),设备、环境和处理M 类型的告警可以落Ail个情况中。对于^^入内部类别的告警,网元应当知道 故障资源的状态,例如由于资源自己检验自己的状态。
皿故障类別该故障由一个资源拦截,所述资源是在包含它的设备与周 围网络的通信ii^呈中起作用的资源;故障位于以下资源中的一个属于被管理 的i殳^^本身的内部资源(例如,物理端口 ),该i殳4^M目邻^:4"之间的连接的物 Si^出i&拖(例如,光纟1^接),或者邻连设备的相邻资源(例如,直接连接到 所述设备的告警资源的相邻设备的物理端口 )。然而,由于缺少关于资源的设备 告警,接收的告警不能使得把组的类别识别为内部的。这有可負汰生于例如当 故障涉及到网元的内部资源(例如1 1^几)、但是这个资源不能够检查自己的 状态,从而网元不知道那个资源的状态。作为举例,对于某些网络技术(ADSL、 SDH/WDM ),标识为"通信告,,的4^可以落Ait种情况中。
夕NN1^类别:如前一种情况,该,由i殳备的部^N^,所iii且件在设 备自身的通信过程中起作用并位于物^Ji不相邻的夕Np设备上。在所迷情况下,
网^收由iM于此资源和^L资源之间的设4^送的i^呈故障的信令。这个
情况覆盖了不包括在前述列出的两种情况中的所有可能性。
在该方法的简4t^中,或者在其预备步骤中,故障可以仅仅再次划分为
第4第^#别"内部/持续"^'夕h^",其中内部/驗类别齡了如上所迷的 内部或者持续的所有故障。可以^f愤个简4^^类用于A^t故障负责的网元的 选择中排除与夕NP类别相关的的网元。转而,"内部/持续"类型可以再划分为两 个子类"内部,,^'持续",以允"i^4树故障负责的网元。
所述告警组分类过程由每个4W^告警接收^执行。如同实现告警^^且 功能一样,实现告警组分类功能设^^fWi维护以下信息
國易毁坏的资源之间的包含关系;
-易毁坏的资源之间的客户端/服务器关系;以及
-錄置接收的告警。
之前列出的情;脉图6中以网元A和D把夢ftX分类为持续故障(Cont) 以及网元F和B把^f牛X分类为夕h^赠(Ext)种'J示出。 识别关于所述告警组的"伙伴"(步骤206)
在告警組分类^, ^^计算哪些是潜在包糊、并且它必须将关于它从 被管理网元所接j^ij的通知给其的网it^爐。从4饭中包賴拓4M言息开始进 行所述计算。实现识别伙伴功能设絲4mJi维护以下信息
-网#朴,即设备的通信资源与互联的网元的等同通信资源之间的关系;
國易毁坏的资源之间的包含关系;
-易毁坏的资源之间的客户端/服务器关系;
國所述告警组,尤其是告警资源和类别。
在图4到11的序列中没有特别显示这个步骤。
向与组自身相关的伙伴发送关于所述《脉类别的信息,以及接收由所述代 理的伙伴发送的类似信息(步骤208)
已经接收了告警的每个代理向关于所述故障标识的每^H^伴发送消息。在 所述消息中,发送了关于用于识别对故障负责的代理的告警组的所有信息,虽 然没有明确的发送^3S接收的告警。至少以下信息^|^发逸
-发送倾的标條
-告警组的銜膽; -告警的资源;以及 "^计算的告警的类别。
一旦伙^RM接^'j该消息,每个单独^a^能够通iii且合下述内容^它 自己的关于考虑告警资源的告f^i且的表a)由4但自己收集的和由它自己管 理的设^^发送的告警组信息;以及b)每个单独伙^ff嫂收集的、关于所述伙 ^H嫂收集的告警组的、对应于与所述^^Ji告警资源相邻的资源的信息。然 后基i^皮管理的设备上的告警资源、基于在伙伴的消息中接收到的告警资源以 錄于拓朴的信息构^l且^i且由属于不同f^的组以財虑湘互錢并相 邻的(物SB^者逻辑地)资源的组构成。
i^且,^见于图7到11中,其显示了在每个4,网元上的一个表的构 成,每个^^能^ft助该^^ia之内区分自己是否处于负责的情况。
交换搡作的结束(步骤210)
在消息交换操怍的结尾,通过^^1在前一阶段构造的表,萄r个^^能够在
^i且之内区分自己是否是对故障负责的4镇。通itt虑与^S以及由伙伴才娥
下文中说明的細'J获得的代淘目关的告警组的类型做出所iti^择(^匕,为了
简化,組类别指示为代理的类别)。
选棒对故障负责的^^ (或者,等同地,网元)包括首先
-如果^m是内部类别并JJ^JUS伙伴是内部或持续类别,指^一个来负 责所i^^且,并且其它^^v负责^R^的角色中自行排R^;
-如果^^是持续类别并^^^伙伴是内部或者機类别,指^一个来 负责所i^^且,并且其它^SE^负责4嫂的角色中自行排斷
國如果两个或者多^WfR3S是相同类别,并且;^^在更高优先级类型("内 部"高于"持续","持续"高于"夕MP)的伙^^3^4在,指狄高协i^i:的^S 负责,并且其它^S^负责^^的角色中自行排斷
_如果两个或者多个同#^^是相同类別,没有更高优先级类别的伙^f但
存在,并且如果它们具有相同的协议层,则需^^随^l择算';^^择负责代理,
例如指定具有最高唯一标in的^S负责,并且其它^a^负责^3g的角色中 白行齢,
-夕1^类别的^3^1<^不能负责^^且。
借助获得的信,y旨定的负责4^S接着^A^f亍告f4幼j的步骤。 所有从负责^S的角色中排除出去的^^会维护获得的信息,并且会絲
监听、等待负责^^请求它们"^甜定辦。
另一方面应当认iRj)J, iJU,J对,负责的4^的过程(^M5^为故障定位
的步骤)不是必须在基于代理的分布式结构中实现。实际上,所述过禾lit常包
括以下步骤
a) 关于iW创建设备的告警组;
b) 计算告警組类别;
c) 为告警纟且i只别^^置的^M半;
d) 创建关于故障的告警的超组;以及
e) 选W^Uf负责的^P^。
所述步骤可以在集中式系统上实现,或者以不同形态分布,包拾"V給,形
态,其中上述某些步骤以分布方式执行而其它的步骤以集中方式^ie。
第一解决方案设想整个过禾驢集中式系^Ji实现,该系统可以处棘自于 网络的所有告警,创建告警桑脉子组,以^^每樣障选择负责的设备。因此, 图2;J^呈图的所有^Mt(除了步骤208,该步骤可以省略,因为将不需要交:^言 息)可以由集中iC^;^t^行,例如图1中的单元MA。
系统的鰣预先败
-知道网絲朴;
-创^^且的规则的定义以及类型的分配;以及 -识别伙伴、创^^L、以Ai^择负责的网元。
另一个可能的解决方^A把前两个步骤(a和b )^f网元负责的^^Ji实 现,而其它步骤(c到e)为在集中式系统上实现。
以这种方式,每个4^向集中式系统提供具有相关类别的告警组。集中式 系^^亍其它步骤,^^来自于不同^m的信息,这些^R^之间不应再交换消 息,而只是向它们之Ji的系M^iii其处理操怍的输出。
另 一种实现的可能性包括为每个网^'j建一个^3^为每个相关类型创建 一个代理。后者可由网元的代M送的消息激活。例如,路由器的代理,在它 食&^'J建通信资源的告警组的情况下,可以向根据网络拓4Ht择的适当相关代
理发送消息。相关代理应当创建超组,可能还交换信息,并应当选择负责代理。
进一步地可能是省略代理并使上述操作完全由网元执行(在这种情况下应
当向网元提供改进的智能(即,被配置以便能够M图2中的所有步骤),或者
完全由与网元通信的集中式单元执行,或者以混合方式,某些步骤以分布方式执行而其它步骤以集中方式执行。
因此应当理解,本发明通常应用于其中网元能够通过告警消息通知外部系统存在故障(或预期攻击)的任何类型的电信网络。
例如,本发明可应用于提供xDSL和VoIP服务以及NGN (下一代网络) 体系结构的网络,如图12所示,并且其中树网络段都是不同的,即
-接入网(固定FA或者移动MA,具有HN-归属网络的特定表示);
-传输网(IP网络或者'核心网");
-模块M用于控制服务,通常与其它网络NW合作;
-业务模块或者服务器S,具有与其相关的对应数据库DB。
在一个实现中,本发明能够在如图13中所示的用于提供xDSL业务的网络 中识别故障的存在以及故障的位置。所述网络通itit常表示为DSLAM (数字 用户线接入模块)、GBE (吉比特以太网)、BRAS (宽带远程接入模块)和IP 网络的组件的表示来示意性地显示。
在另1实现中,本发明使得能够在用于提供VoEP业务的网络(如图14 所示的)内定#识别故障,其中类似于或者等同于参考图12已经介绍的网元 以相同代码表示。在图14的网络的特定情况下,已经明确地突出显示组件ATM (异步传输模式)、RG (常驻网关)、BRAS (宽带远程接入服务器)、MGW (媒 体网关)、SIP (回话发起协议)服务器、AS SIP (应用服务器SIP )、以及软交 换。
在另一种实现中,网络使得能够在传输网络之内定位和识别故障,其中由
IP骨干节点在SDH传输节点层执行传输。
如描述的开始部分强调的,代理可以以与网元一一对应地分布或者可以半
分布式分布或者部分集中地分布.
因此,不影响本发明的根本理,细节和实施方式可以变化,甚至考虑纯 粹以举例的方^述的内容,而没有脱离如附加的权力要求所定义的本发明的 范围。
权利要求
1、—种用于在通信网络的一组网元中定位故障的方法,每个所述网元具有与之相关联的相应处理实体,该方法包括-检测在至少一个所述网元中的所述故障;-通知其它所述网元所述故障的存在;-在每个所述网元中产生与所述故障相关的相应告警组,-在每个所述处理实体中,对由相应网元产生的告警组进行分类,如果网元已经检测到所述故障,则将所述告警组分类为第一类告警,如果网元已经被通知所述故障的存在,则将所述告警组分类为第二类告警;以及-根据所述分类步骤的结果选择所述网元中之一作为对故障负责的网元。
2、 才娥权利要求1所述的方法,^ft棘于每个所狄理实体包綺理代理。
3、 ^^权矛漆求2所述的方法,^f棘于分类步骤由所述^R^^f亍。
4、 才N^权利要求3所述的方法,^■#征在于所iiit##骤也由所述^ 执行。
5、 才M^U'J要求1所述的方法,^##于将所^少一*警分类为第 一类包括,如果该故障与网元中的把自身故障状态传it^网元的资源相关,则 将所^少"H^警分类为第一子类,如果该故障与网元中的未把自身故障状 态传ill^网元的资源相关或者如果该故障与网元的资源不相关但已经由该网元 的资源检测到,则分类为第二子类。
6、 才N^l5U,漆求1所述的方法,^Hr棘于所iiii知其它所述网;^斤述故障的存在的步骤包括把故障信息从e^测到故障的至少一个所述网;^送到其 它所述网元。
7、 才^^u,j^求5所述的方法,^Hr棘于选树故障负责的网元包括在 所述网元中识别相互逻辑或者物^il接的至少一个网元组。
8、 才Nt权矛J^求7所述的方法,^##于选#^,负责的网; ^^一步警组的类别相关的信息。
9、才N^权矛J^求8所述的方法,^Hr棘于选树故障负责的网; Lii一步 包括在与每^H尸^组的网^目关联的所述实体中tbl^斤述交换的信息。
10 、 ##权利要求9所述的方法,^#;^于选#^故障负责的网元包括如果所述网元中的一个已经产生第一子类的一组告警并J^目同组内无其它网元产生第一予类中的告警组,则选择所述网元。
11、才^^权矛j^求9所述的方法,^ft棘于选树赠负责的网元包括如果所述网元中的一个已经产生第二子类的一组告警并il^目同组内无其它网元产生第一子类或第二子类中的告警组,则选择所述网元。
12、 才M^权利要求io所述的方法,^ft棘于选树故障负责的网元包括 如果所述网元中的一个是已经产生第二子类中告警组的相同组的多个网;^中具有最高协议的网元,并且该相同组内无其它网元产生第—类的告警组,则 选择所述网元。
13、 才Nt权利要求1所述的方法,^#*于每个所述告警指示受对应网元内所述故障影响的资源,该方法包括,如果所述两*警指示相同的资源, 或者具有包含关系或客户端/服务器关系的同 一网元的不同资源,则将两*警 分入同一*警组的步骤。
14、 一种用于^it信网络的一组网元(A, B, D, F)中定位故障的系统, 其中把^^个所述网iL^S己置用于产生与所述,相关的告警组,所述系统的特 征在于其净iLS己置用于^W^5U,J要求1至13中4—个;M'J^求所述的方法。
15、 一种计^fc^I^产品,可加载到至少一个计#4几的^#器中,并包括 用于^^1^L利^"求1至13中任一个权利要求所述的方法的软件^ 马部分。
全文摘要
为了定位通信网络中的故障,其中的部件被配置成产生(A,D)告警并向所述集合中的至少一个其它部件(B,E,F)传送故障信令。优选地通过自行排除,把向其传送故障信令的集合中的那些部件(B,E,F)从定位故障的行为中排除。优选地以分布式基于代理的体系结构的形式实现该设置,其中每个部件具有相关的代理用于把其拥有的告警信息分类成例如与内部故障(Int)、连续故障(Cont)、和外部故障(Ext)相关。优选地通过在相关代理之间的直接交换,为具有物理上或者逻辑上相互连接的告警资源的所有部件收集分类告警信息。基于收集的分类告警信息,从拥有被分类为与内部故障(Int)或者连续故障(Cont)相关的告警信息的部件中选择出至少一个为故障负责的部件(A),同时丢弃只拥有被分类为与外部故障(Ext)相关的告警信息的那些部件。
文档编号H04L12/24GK101366236SQ200580051487
公开日2009年2月11日 申请日期2005年7月6日 优先权日2005年7月6日
发明者A·甘多拉, C·西纳图, F·莫拉 申请人:意大利电信股份公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1