克服单元管理层服务器中故障的方法和计算机产品的制作方法

文档序号:7627647
专利名称:克服单元管理层服务器中故障的方法和计算机产品的制作方法
技术领域
本发明涉及电信网络中的单元管理层服务器的领域,并且特别涉及用于自动克服这种服务器中可能的故障的方法。此外,本发明涉及适于执行所述方法步骤的计算机产品。
背景技术
如在电信现有技术中公知的那样,网络单元至少部分上是由服务器通过适当的软件工具来管理的。在电信管理网络(TMN)层次中组织所述管理软件工具,其在于创建用于监控且管理电信设备的分层结构的一组标准化协议,这因而可以将高复杂度的网络作为单个凝聚单元来管理。TMN层次的较低管理层存在于单元管理层中,简称为“EML”。EML例如处理管理告警、配置网络装置、执行备份和恢复机制(用于数据和软件)并收集性能监控信息(对功率消耗、温度、可用资源及其它的检测)。
由于不同的原因,EML服务器可能产生问题。例如,当网络单元的配置数据和/或配置顺序与所设计的不一致时,EML服务器将出现故障。也可能由于软件错误(bug)而使EML服务器出现故障。
现在,当问题产生时,服务器变得完全失败。通常,电信服务提供商不能克服问题并且联系基础设施的设计者/提供商。当有时基础设施提供商能够相当容易地克服问题时,从问题通知到问题解决的时间可能达到几个小时或几天。这正是由于服务提供商必须检测问题并将问题通知给电信基础设施提供商;基础设施提供商还必须找到合适的解决方案,可能通过测试内部服务器;并且最终,基础设施提供商必须相应地指示服务提供商。最终,服务提供商必须采取所建议的行动。
申请者已经观察到,从问题检测到问题解决消耗的时间是非常长,并且能够有利地减少,这因而减小了整个电信网络的操作和维护成本(操作支出或“OPEX”)。因此,申请者必须面对减小电信网络的OPEX的一般问题。更详细地,所述问题是如何减少电信网络中的EML服务器的维护时间和停工期(downtime)。从服务提供商的角度出发,较快地反馈未预见的错误十分关键。

发明内容
根据本发明的方法和计算机产品解决了所述和其它问题。在各个附属权利要求中阐述了本发明的其它有利特征。所有权利要求被认为是本说明书的完整部分。
根据本发明的第一方面,提供了一种用于自动克服EML服务器中的故障或错误的新的方法。最后,根据本发明的第二方面,提供了一种新的计算机产品。
根据所述新的方法,所述EML服务器由具有基本上相同的基本结构的几个激活的单元所组成。此外,通过错误收集器和错误监视器提供了用于所有单元的公共错误管理。所述单元周期性地发送错误和状态信息给所述错误收集器。该错误收集器通过处理来自该单元的信息,能够确定单元是否受到错误的影响。然后发送被处理的错误和状态信息给所述错误监视器,该错误监视器进一步处理所述信息,并且通过合适的故障模型来决定要在受错误影响的单元上执行的绕过操作动作(workaround action)。最终执行该绕过操作动作,而不需要外部操作者的任何人工介入。
通过根据本发明的方法,简化了EML服务器中的管理错误检测和绕过操作过程。更具体地,所述类型的方法允许错误的自检测和绕过操作的自动激活。如果所述自动绕过操作是成功的,则服务提供商和网络提供商不必花费时间来解决问题。此外,在所述自动绕过操作没有解决错误的情况下,网络提供商将能够针对这种错误较快地找到解决方案,这是由于可以先验丢弃关于错误原因的若干假设。因此,在所述两种情况下,根据本发明的EML服务器允许电信网络的OPEX的减小。
根据本发明的第一方面,提供了一种用于自动克服EML服务器中的故障或错误的方法。所述方法包括以下步骤在所述EML服务器中标识一个或多个单元;提供错误收集器;提供错误监视器;定义故障模型;将单元的状态通知给所述错误收集器;在所述错误监视器中,通过所述故障模型来处理单元状态信息;以及通过所述错误监视器,将要采用的绕过操作动作指示给所述单元。
将所述单元状态通知给所述错误收集器的步骤,优选地由发送状态和/或错误指示消息给所述错误收集器的所述单元来执行。
优选地,所述方法还包括在所述EML服务器中标识一个或多个核心单元的步骤,所述核心单元能够发送不同的核心度量(core metric)给所述错误收集器。
优选地,所述通过故障模型来处理单元状态信息的步骤,包括从预定的绕过操作动作集合中选择绕过操作动作。
所述故障模型可以是静态的、动态的或概率的。
所述错误监视器可以有利地将所采取的绕过操作动作存储到合适的日志(log)或存储器中。
有利地,每个子部件与所述错误收集器独立地通信,并且根据来自所述错误监视器的指令来执行绕过操作动作。
所述方法还包括这样的步骤为所述单元中的每一个标识单元类型;以及为每个单元类型定义预定绕过操作动作的集合。所述预定绕过操作动作的集合可以包括绕过操作动作,该绕过操作动作旨在将受故障或错误影响的单元移至稳定条件。
根据本发明的一种可能实现,所述要采取的绕过操作动作包括下列动作中的一个或多个重启、复位和恢复。
有利地,所述错误收集器存储来自位于EML服务器外部的部件的错误报告。有利地,所述错误收集器存储最有意义的指示到日志或存储器中。
所述为所述单元中的每一个标识单元类型的步骤,可以包括将所述单元分类为永久状态部件、动态状态部件和无状态部件的步骤。
根据不同的方面,本发明提供了一种包括计算机程序代码装置的计算机产品,该计算机程序代码装置适于当所述程序运行在计算机上时执行上述方法的所有步骤。所述计算机产品包括计算机程序或计算机可读存储媒介。
根据另一方面,本发明提供了一种包括如上所述的计算机产品的网络单元。


结合附图,在读过下面作为非限制性例子给出的详细描述之后,本发明将变得明显,其中-图1是TMN分层结构的一部分的示意性说明,该结构包括根据本发明的单元管理层;-图2示出了从故障管理角度的根据本发明的EML服务器的结构;-图3a和3b概略地示出了分别作为动态状态部件和永久状态部件的单元的示例性结构;以及-图4a和4b示出了分别来自代理和用户的外部错误报告的例子。
具体实施例方式
图1示出了TMN分层结构的一部分的示意性说明,所述结构包括根据本发明的单元管理层。如上所示,所述单元管理层(EML)是TMN层次中的一部分。所述EML因而连接到其TMN层次的服务器层,即网络单元层(NEL)。如图1所示,例如可以通过合适的代理来将本发明的EML服务器连接到不同的网络单元通信协议,例如-事务处理语言1(TL1,Transaction Language 1),-简单网络管理协议(SNMP),-公共管理信息协议(CMIP),以及-命令行接口(CLI)。
所述EML也连接到其TMN层次中的客户层,即网络管理层(NML),所述客户层包括客户支持的协议,例如-超文本传输协议(HTTP),-公共管理信息协议(CMIP),-文件传送协议(FTP),-公共对象请求代理体系结构(COBRA),或-Web分布式创作和版本管理(WebDAV,Web DistributionAuthoring and Versioning)。
从功能的角度来看,所述EML包括两个分离的实体,如图1中所示EML服务器,其与所述TMN结构的服务器和客户层连接;以及EML客户端,其通过合适的接口直接与用户连接。下面为了简化起见,包括所述EML服务器和EML客户端二者的EML的整个软件结构,被称作“EML服务器”。
如前面所提到的,根据本发明,所述EML服务器被分为称作“单元”的部件。例如,根据本发明的优选实施例,所述单元可以包括以下类型的单元-管理单元(MU),-微积分单元(CU,Calculus Unit),-代理单元(Prx,Proxy Unit),以及-图形用户接口(GUI)单元。
典型地,为了直接与用户连接(例如运营商和软件开发者),EML客户端包括所有GUI。
这种单元中的再分的主要优势在于,每个单元的复杂度小于整个EML服务器结构的复杂度。因此,为了确认单元的新的软件版本,执行测试的组合序列(sequence)是可能的,该序列通常是详尽的序列。一种简单的自动测试系统可以支持开发阶段的单元测试/确认。
在另一方面,所述单元中的再分导致难以在整个系统上检验所述单元的交互(空间和时间交互二者)。单元可以将其自身注册到相邻的单元(空间交互)并且在每个时刻从该相邻单元接收消息(时间交互)。“组合的测试事例(test-cast)产生技术”可能提供无效的测试集合,这是由于所述技术不能覆盖综合(integration)阶段的所有可能的交互,这因而导致难以提供从错误角度的EML服务器的详尽描述,如同后面将详细描述的那样。
根据本发明,每个单元负责通知(图1所示的)错误收集器EC关于其状态,并且如果发生错误/故障则通知错误收集器关于该错误/故障。现在参考图2,可以注意到,每个单元发送若干消息或指示给错误收集器EC,包括单元状态指示(USI,Unit Status Indication)和单元错误指示(UEI,Unit Error Indication)。为了绝对支持所谓的“心跳机制(heartbeatmechanism)”,周期性地发送消息给错误收集器EC。换言之,当错误收集器EC不再接收到来自单元的消息时,其将认识到该单元已经完全失败,并且将自动开始绕过操作过程。
进一步参考图1和图2,应当认识到,根据本发明的EML服务器结构包括若干核心单元CrU。核心单元CrU是EML服务器的结构部件,即所述核心单元实现允许其它单元执行其功能的基础功能。所述核心单元例如包括-目录核心单元(Dir),其允许所有单元注册它们自己;-消息转发核心单元(MF),其管理单元之间的消息交换机制;-工厂(factory)核心单元(Fct),其管理新单元的创建;以及-虚拟机(VM),其典型地为Java和Dotnet应用程序所需。
类似地,所述核心单元发送不同的核心度量CM给错误收集器EC。所述核心度量CM可以包括例如-所述单元的虚拟交互,例如就所分配的存储器或CPU利用率(来自目录核心单元“Dir”)方面;-所述单元的消息统计,例如输入/输出队列的填充(filling)(来自消息转发核心单元“MF”)。
-针对每个分类所创建的单元数量(来自工厂核心单元Fct);以及-虚拟机使用,就存储器、线程/过程、CPU消耗等(来自虚拟机VM)方面。
错误收集器EC收集来自不同单元的单元状态指示(USI)和单元错误指示(UEI),以及来自核心单元的核心度量CM。此外,如同后文将参考图4a和4b所描述的那样,错误收集器EC存储来自位于EML服务器外部的部件的错误报告,所述部件即代理和用户。最后,通过单元心跳信号(Uhb,Unit heartbeat signal),所述错误收集器检测包括核心单元的一个或多个单元的完全故障(可能是致命错误)。通过所述单元状态指示(USI)、单元错误指示(UEI)和核心度量(CM),绝对地导出所述单元心跳信号(Uhb)。最后,所述错误收集器将所接收的指示存储到日志或存储器(EC log)中。此后可以由网络提供商/开发商来分析被记入日志的指示。
根据本发明的EML服务器结构与错误监视器ES进行交互。参考图1,应当认识到,错误监视器ES是独立的部件(即其位于EML服务器的外部)。错误监视器ES从错误收集器接收各个不同的指示。例如,其接收状态指示SI和错误指示EI。此外,错误监视器ES利用单元心跳信号(Uhb)来接收由所述错误收集器(EC)所计算的停止指示(StopI)。反过来,错误监视器ES发送其自己的心跳信号(ES Hb)给所述错误收集器,以使该错误收集器可以检测该错误监视器是在操作中还是失败了。当所述错误收集器通过所述错误监视器的心跳信号(ES Hb)而认识到该错误监视器ES失败时,该错误收集器EC可以通过恢复动作(RA,restore action)来恢复该错误监视器的操作,如图2所示。
错误监视器ES的主要任务是将来自错误收集器EC的错误和状态指示关联于其它信息(例如由核心单元提供的核心度量(加载(load)指示或“LI”)),并因而通过合适的故障模型来确定要在受错误影响的单元上执行的绕过操作动作(图2中的WA)。错误监视器ES也可以将所决定的动作存储到合适的日志或存储器(ES log)中,其将由网络提供商/开发商以后进行分析。
为了简化错误监视器ES所执行的处理,所有单元实现相同的机制以检测错误,并且实现相同的机制以发送单元错误指示UEI给错误收集器EC。可能地,所述单元可以发送单元错误指示UEI给注册的单元。
此外,为了简化绕过操作的管理,定义了绕过操作动作的公共集合。可能动作的定义是基于单元类型的。可以发现三种单元类型1.动态状态部件当在故障之后重启动态状态部件时,不可能恢复其在该故障之前所具备的状态(即动态状态部件仅包括易失性存储设备);2.永久状态部件当在故障之后重启永久状态部件时,可能恢复其在该故障之前所具备的状态(即永久状态部件仅包括非易失性存储设备);以及3.无状态部件这种单元类型在故障之后没有要恢复的状态(即,其是纯微积分单元)。
图3a和3b分别作为动态状态部件和永久状态部件来概略地示出单元的示例性结构。
参考图3a和3b,每个单元包括不同的子部件,例如队列、控制子部件、非易失性存储子部件、微积分子部件或视图(view)子部件。
例如,图3a示出了作为动态状态部件的单元的结构,所述动态状态部件包括两个输入队列Qin、Qis、两个输出队列Qon、Qos和两个控制子部件Cns、Csn(“n”代表北,“s”代表南)。当图3a所示的单元最终经历了重启过程时,重启之前的单元状态将丢失,这是因为在单元中没有永久存储设备是可用的。因此,所述单元必须被初始化到默认状态。
图3b示出了作为永久状态部件的单元的例子,所述永久状态部件包括非易失性存储子部件M、两个输入队列Qin、Qis、两个输出队列Qon、Qos、两个控制子部件Cns、Csn和微积分/视图子部件C/V。当图3a所示的单元最后经历了重启过程时,其重启之前的状态可以被恢复,这是由于所有参数可以被恢复到非易失性存储子部件M中。
根据本发明,每个上述单元类型的特征在于被支持绕过操作动作的集合。根据本发明的优选实施例,所述动作旨在将受错误影响的单元移至稳定条件,即最小化错误影响的条件。由于最稳定的条件被认为是初始的单元交互工作(inter-working),因此错误监视器ES所决定的行为旨在将该单元移向其初始条件(即启动或默认状态)。因此,对于无状态单元,所支持的动作是-重启() //由核心单元支持对于动态状态单元,所支持的动作是-重启() //由核心单元支持-复位() //强制所述单元状态为默认对于永久状态单元,所支持的动作是-重启() //由核心单元支持-复位() //强制所述单元状态为默认-恢复() //加载被存储的参数以恢复先前状态应当指出,上述动作仅是大量可能动作中的可能动作的集合。
错误监视器ES基于“故障模型”来决定要在受错误影响的单元上执行的动作(图2)。所述故障模型允许错误监视器ES根据错误收集器所提供的信息,确定故障单元的错误状态和要在该故障单元上执行的绕过操作动作。
所述故障模型包括从错误角度的EML服务器的描述。特别地,所述故障模型包括从错误角度的单元之间交互的描述和单元之间功能相关性的描述。换言之,所述故障模型将错误状态关联于(来自单元的)错误指示、(来自单元的)状态指示、(来自核心单元的)加载指示的给定集合。
根据EML服务器的描述类型,所述故障模型可以是-静态的从错误角度的EML服务器的描述是详尽的。因此,错误指示、状态指示和加载指示的每个集合单一地对应于单个错误状态。然后单一地并确定性地确定要在故障单元上采取的绕过操作动作。在所述情况下,必须将新的错误状态(例如由于插入新的软件部件到EML服务器中)插入静态故障模式中;否则,所述错误状态是未知的并且不能被解决。
-动态的从错误角度的EML服务器的描述是被动态更新,即,当新的错误状态发生,其通过学习(learning)机制而被自动插入动态故障模型中,这例如可以基于神经网络。换言之,当错误指示、状态指示和加载指示的新集合发生时,所述错误监视器需要神经网络的介入,所述神经网络试图根据已经存在于故障模型中的错误指示、状态指示和加载指示的集合来推断错误状态。一旦推断出错误状态,所述错误监视器就确定合适的绕过操作动作。还可以为错误监视器提供存储设备,该存储设备允许分类所述新的错误状态,以便软件开发者能够研究它们用来开发软件的下一个版本及更新。所述动态故障模型有利地是适应的,即,其即使在不确定的情况下也能够进行判决,其中,新的错误状态发生。此外,当(如静态故障模型所需的)系统的详尽描述相当难于实现时,所述动态故障模型可以有利地应用于复杂系统。然而,所述动态故障模型典型地需要非常复杂的实现,并且其特征在于确定性的行为。
-概率的这种机制更适合简单EML服务器的情况,即EML服务器的特征在于缩减的单元数量或具有缩减的可能状态数量的单元。在概率故障模型中(或贝叶斯(Bayesian)故障模型),提供了所述EML服务器的概率描述。换言之,标识了EML服务器的所有可能的状态,并且针对每对可能的状态来估计参数,所述参数涉及每对的两个状态之间的转换的概率。因此,根据所述参数,当所述错误监视器从所述错误收集器接收了错误指示、状态指示和加载指示的集合时,通过概率算法来确定最可能的错误状态。最终,应用对应于最可能错误状态的绕过操作动作。在所述概率模型中,可以提供模型的自动更新(与动态故障模型类似)和模型的人工更新(与静态故障模型类似)二者。
如上所述,根据本发明的EML服务器也支持外部错误报告。图4a和图4b示出了分别来自代理和用户的外部错误报告的两个例子。特别地,参考图4a,代理可以发送错误报告给EML服务器。所述报告被发送给代理单元Prx、传播给注册的单元并最终由错误收集器EC来收集,该错误收集器将错误的发生通知给错误监视器ES。如果由错误监视器ES决定并由所述单元执行的动作不能解决所述错误,则发送错误报告给图形接口单元GUI,该图形接口单元将未解决的错误通知给用户。
此外,错误指示也可以由发现错误的用户来产生,如图4b中所示。该用户可以填写错误通知表(未示出)并通过图形用户接口GUI发送所述表给涉及的单元以及错误收集器EC,该错误收集器将错误通知给错误监视器ES。错误监视器ES在所涉及的单元上激活绕过操作过程。最终,发送关于该绕过操作过程的报告给用户。
应当指出,传输网络需要动态故障模型时,来自代理的错误报告和来自用户的错误报告二者的结果都可以用来动态更新所述故障模型。
根据本发明的EML服务器具有许多优势。首先,相比已知的解决方案,减小了解决错误的总时间,这是由于EML服务器自动激活并管理所述绕过操作过程,并且不需要网络提供商的人工介入。因此,避免了根据现有技术的已知绕过操作过程所需的、服务提供商和网络提供商之间的所有反馈,这通常需要几天或几个星期。在许多情况下,如果自动绕过操作成功,则网络持续工作而不会放任等待解决错误的时间(“停工期”)。总之,即使自动绕过操作没有成功,网络提供商也能够在不影响网络的停工期的情况下搜索解决方案,同时整体减少了网络的OPEX。
权利要求
1.一种用于自动克服单元管理层(EML)服务器中的故障或错误的方法,所述方法包括以下步骤-在所述单元管理层服务器中标识一个或多个单元;-提供错误收集器(EC);-提供错误监视器(ES);-定义故障模型;-将所述单元的状态通知给所述错误收集器(EC);-在所述错误监视器(ES)中通过所述故障模型来处理单元状态信息;以及-通过所述错误监视器(ES)将要采用的绕过操作动作指示给所述单元。
2.根据权利要求1的方法,其中,所述将单元状态通知给错误收集器(EC)的步骤由发送状态和/或错误指示消息(USI、UEI)给所述错误收集器(EC)的所述单元来执行。
3.根据权利要求1或2的方法,其中,所述方法还包括在所述单元管理层服务器中标识一个或多个核心单元(CrU)的步骤,所述核心单元(CrU)能够发送不同的核心度量(CM)给所述错误收集器(EC)。
4.根据前面权利要求中任何一个的方法,其中,所述通过所述故障模型处理单元状态信息的步骤,包括从预定绕过操作动作的集合选择绕过操作动作(WA)。
5.根据权利要求1-4中任何一个的方法,其中,所述故障模型可以是静态的、动态的或概率的。
6.根据前面权利要求中任何一个的方法,其中,所述错误监视器(ES)将所采取的绕过操作动作(WA)存储到合适的日志或存储器(ES log)中。
7.根据前面权利要求中任何一个的方法,其中,每个子部件与所述错误收集器(EC)独立地通信,并且根据来自所述错误监视器(ES)的指令来执行所述绕过操作动作(WA)。
8.根据前面权利要求中任何一个的方法,其中,所述方法还包括这样的步骤为所述单元中的每一个标识单元类型;并且为每个单元类型定义预定绕过操作动作的集合。
9.根据前面权利要求中任何一个的方法,其中,所述预定绕过操作动作的集合包括绕过操作动作,该绕过操作动作旨在将受故障或错误影响的单元移至稳定条件。
10.根据前面权利要求中任何一个的方法,其中,所述要采取的绕过操作动作包括以下动作中的一个或多个重启、复位和恢复。
11.根据权利要求1-10中任何一个的方法,其中,所述错误收集器(EC)存储来自位于单元管理层服务器外部的部件的错误报告。
12.根据权利要求2-11中任何一个的方法,其中,所述错误收集器(EC)将最有意义的指示存储到日志或存储器(ES log)中。
13.根据前面权利要求中任何一个的方法,其中,所述为所述单元中的每一个标识单元类型的步骤,包括分类所述单元为永久状态部件、动态状态部件和无状态部件的步骤。
14.一种包括计算机程序代码装置的计算机产品,该计算机程序代码装置适于在所述程序运行在计算机上时执行根据权利要求1的所有步骤。
15.根据权利要求14的计算机产品,其中,所述计算机产品包括计算机程序。
16.根据权利要求14的计算机产品,其中,所述计算机产品包括计算机可读存储媒介。
17.一种网络单元,其包括根据权利要求14-16中任何一个的计算机产品。
全文摘要
公开了一种用于自动克服EML服务器中的故障或错误的方法,所述方法包括以下步骤在所述EML服务器中标识一个或多个单元;为所述单元中的每一个标识一个或多个子部件;提供错误收集器;提供错误监视器;定义故障模型;将单元的状态通知给错误收集器;在所述错误监视器中,通过所述故障模型来处理单元状态信息;以及通过所述错误监视器,将要采用的绕过操作动作指示给所述单元。
文档编号H04L12/24GK1776632SQ200510123298
公开日2006年5月24日 申请日期2005年11月15日 优先权日2004年11月16日
发明者A·帕帕雷拉, R·罗伯托 申请人:阿尔卡特公司
再多了解一些
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1