一种测试代价敏感的系统故障定位方法及其装置的制作方法

文档序号:6563706阅读:137来源:国知局

专利名称::一种测试代价敏感的系统故障定位方法及其装置的制作方法
技术领域
:本发明涉及通信领域,特别涉及一种测试代价敏感的系统故障定位方法及其装置。
背景技术
:对于通讯电子设备而言,设备故障是客观存在且随机发生的,导致设备故障的原因不仅包括器件的硬件失效,也包括设备的人为操作失误。当由多个组件构成的复杂系统发生故障时,维护人员往往一筹莫展,无法快速准确地找到导致系统故障的具体原因,从而导致维修时间过长和维修费用过高,这对于通讯设备组成的高可用系统而言是不允许的。传统的故障定位方法主要依赖于维修人员经验的长时间积累和设备的历史故障信息,在实践中发现,这种依赖于经验的方法只能解决常见问题,对于复杂系统或新型设备,依赖于经验的方法无法有效的解决问题。在设备使用过程中,如何快速准确地将系统故障定位到现场可更换单元(组件),从而提高故障定位的准确性和提高系统的可靠性,人们一直为之困扰。目前,为了解决以上问题,人们提出了许多解决方法,其中基于决策树的故障定位树就是一种有效的故障定位方法,其具有高诊断率、低误诊率、对噪声具有鲁棒性和定位时间快这四大优点。在现有的技术中,基于决策树的故障定位树的生成主要是以人工方式为主,或采用一些现有的树生成算法。在实际的故障诊断过程中,往往会先得到一些故障表现(即故障症状),但是通常根据这些故障表现还不足以确定系统发生的根故障,为了确定根故障,还必须对系统设备进行一定的测试,这些测试可能是自动进行的,也可能是人工进行的,有些测试是比较容易进行的,有些测试是十分困难的,有些测试是需要中断系统业务的正常运行的,有些测试是不须中断系统业务的正常运行,也就是说各种故障表现的检测代价是不同的,在故障定位树的生成算法中考虑故障表现的测试代价是非常重要的,这样能使生成的故障定位树在定位树的大小和测试代价上有一个好的平衡。法只考虑利用故障表现的分布情况使最终生成的故障定位树树尺寸最小,如CART[l]、ID3[2]和C4.5[3]等,而没有考虑故障定位过程中故障表现的测试代价问题;另一类算法则考虑了使故障定位树总代价最小,即根据综合数据的测试代价和误分类代价确定决策树何时停止生长,但是其重点是判断何时停止树的生长,其选择属性进行测试的准则是使误分类代价和测试代价之和最小。对于允许误判情况的系统来说,这是一种较好的代价敏感的树生成算法,但是对于通讯设备系统来说,误判的代价是十分严重的。在此种情况下,由于只考虑了属性的测试代价,而没有考虑选择该属性后由故障发生的分布情况决定的数据信息量的收益情况,因此生成的故障定位树并不能使故障定位过程中的测试代价较小。现有技术公开了一种基于故障树分析的系统故障定位方法及装置,该方法通过对系统进行故障模式影响分析,生成相应的故障模式库,再根据该故障模式库进行故障树分析并生成相应的故障定位树;所述方法在生成故障定位树时包括以下步骤步骤A:按照底事件出现的概率和定位的难易程度来排列底事件。将发生概率较大的底事件、容易定位的底事件放在前面,将发生概率较小、不方便定位或无法定位的底事件放在后面。步骤B:将中间事件或底事件以及相应的检测手段写在决定框中。检测手段用括号表示,当检测手段无法由软件自动进行而需要人工确认时,需要在检测手段的开头加上"人工确认,,,以作为提示诊断人员的信息。步骤C:将诊断结果以及解决方案写在故障描述处理框中。解决方案也需要用括号表示,同时开头加上"解决方案"加以提示。步骤D:将相应的提示信息写入提示信息处理框中。通过上述方法生成的故障定位树为二叉树的模型,各中间判断动作的输出均应包括"是"和"否"两种结果,否则视为不完整的动作节点,要加入提示信息处理框将其补充完整,其内容可以是"正常"或是当无法准确判断根故障时相应的提示信息。当需要进行故障定位时,程序从顶事件出发,经过不同的决定框最终得到故障描述处理框,并根据其中的诊断结果和解决方案对根故障进行相应的处理。该方法提出了一个很好的系统故障定位解决方案,但是在实现该方法过程中,发明人发现通过该发明方法生成的故障模式库虽然包含了系统的故障表现和故障原因,却并没有包含针对不同的故障表现的测试代价,因此在基于故障树生成相应的故障定位树时也就没有考虑测试代价的问题。另一方面,该发明方法仅说明了将发生概率大的底事件和容易定位的底事件放在前面,将发生概率较小和不方便定位或无法定位的底事件放在后面,而没有提及如果出现发生概率大同时又不方便定位的底事件,或出现发生概率较小同时又容易定位的底事件时相应的处理方案。另外该发明没有对选择中间事件的方法作进一步说明。综上所述,现有的对系统进行故障定位的方法,存在无法兼顾使测试代价相对最少和使生成的故障定位树相对最小的缺陷。
发明内容本发明的实施例提供一种测试代价敏感的系统故障定位方法及其装置,用于解决现有技术下,在对系统进行故障定位时,无法关联考虑故障定位树的测试代价和故障定位树的大小的问题。本发明的实施例技术方案如下一种测试代价敏感的系统故障定位方法,包括对系统进行故障模式影响分析并形成相应的故障模式库,该故障模式库包括故障表现、可能导致故障表现的故障模式、每种故障表现的测试代价和每种故障模式的发生概率;根据每种故障表现的测试代价和每种故障模式的发生概率获得用于确定故障定位树的决策树,该决策树使故障定位树的测试代价与故障定位树的信息量增益之比最小;将所述决策树转换为对应的故障定位树,并通过该故障定位树分析定位系统故障。一种系统故障诊断装置,包括存储单元,用于存储故障模式库,所述故障模式库包括故障表现、可能导致故障表现的故障模式、每种故障表现的测试代价和每种故障模式的发生概率;通信模块,用于实现系统故障定位装置和测试对象之间的信息交互;处理模块,用于对系统进行故障模式影响分析.形成相应的故障模式库,并根据所述故障模式库中各故障表现的测试代价和各故障模式的发生概率生成用于确定故障定位树的决策树和对应的故障定位树;故障定位模块,用于根据所述故障定位树对系统进行故障分析和定位,以及对定位出的故障模式进行处理。本发明实施例的有益效果如下本发明实施例先根据每种故障表现的测试代价和每种故障模式的发生概率获得用于确定故障定位树的决策树,然后根据测试方案脚本和解决方案脚本将所述决策树转换为对应的故障定位树,这样,便使生成的故障定位树的测试代价与该故障定位树的信息量增益之比最小,从而在减小故障定位树的测试代价和减少故障定位树的测试步骤数两方面达到了综合平衡。图1为本发明实施例中系统故障诊断装置功能结构图;图2为本发明实施例中决策树逻辑结构图;图3为本发明实施例中故障定位树结构图;图4为本发明实施例中对系统进行故障定位流程图。具体实施方式为了解决现有技术下,在对通信系统进行故障定位时,难以找到使生成的故障定位树最小和使测试代价最小两方面的最佳结合点,本发明实施例通过对通讯系统进行故障模式影响分析而得到系统的故障描述,并将所述故障描述与该系统故障历史数据库中相关的信息相结合后形成相应的故障模式库,所述故障模式库包括故障表现、可能导致故障表现的故障模式、每种故障表现的测试代价和每种故障模式的发生概率;接着,根据每种故障表现的测试代价和每种故障模式的发生概率,生成用于确定故障定位树的决策树及其对应的故障定位树;最后,通过该故障定位树分析、定位系统故障,并进行诊断操作。所述故障模式影响分析(FaultModesandEffectsAnalysis,FMEA)是一种研究产品的每个组成部分可能存在的故障模式并确定各个故障模式对产品其他组成部分和产品要求功能的影响的可靠性分析方法。所述故障模式库还包括每种故障表现与每种故障模式之间的关系表。参阅图1所示,本实施例中,系统故障诊断装置包括存储模块100、通信模块101、处理模块102、解析模块103、故障定位模块104和用户接口模块105。所述存储模块100用于存储对应于各测试对象的系统故障历史数据库、故障模式库,以及各种测试方法脚本和各种解决方案脚本;所述通信模块101用于向测试对象下发测试命令,接收测试对象返回的测试结果或向测试对象发送诊断结果;所述处理模块102用于对系统进行FMEA分析并形成相应的故障模式库,接着根据所述故障模式库中各故障表现的测试代价和各故障模式的发生概率,生成相应的决策树并将所述决策树转换为对应的故障定位树;所述解析模块103用于解析故障定位树中的测试方法脚本和解决方案脚本;所述故障定位模块104用于根据所述故障定位树对系统进行故障定位分析并完成诊断操作,以及将诊断结果记录到故障模式库中;所述用户接口模块105用于根据用户的指令对所述故障定位树中的测试方案脚本和解决方案脚本进行相应修改,或者对所述故障才莫式库中的凝:据进行相应修改。本实施例中,系统故障诊断装置先对系统进行FMEA分析而得到系统的故障描述,进而将所述故障描述与该系统故障历史数据库中相关的信息相结合,形成相应的故障模式库以确定系统的故障表现,所述故障模式库中包括的内容如表l、表2所示表l<table>tableseeoriginaldocumentpage10</column></row><table><table>tableseeoriginaldocumentpage11</column></row><table>接着,根据故障模式库中各故障模式的发生概率,分别选择以熵为度量的<formula>formulaseeoriginaldocumentpage11</formula>以GINI指数为度量的<formula>formulaseeoriginaldocumentpage11</formula>和以最大分类误差(ID3)为度量的<formula>formulaseeoriginaldocumentpage11</formula>计算相应的4言息量增益,即<formula>formulaseeoriginaldocumentpage11</formula>其中M",)为数据模式中故障模式",为真的概率,p。",)为数据模式中故障模式",为假的概率;然后,系统故障诊断装置根据故障模式库中各故障表现的测试代价Co.s,,,计算测试代价和信息量增益之比,即('/v:C^,所述测试代价是指对故障表现进行测试时所付出的金钱代价和/或时间代价以及其他代价;最后,系统故障诊断装置才艮据(^/=^^,分别生成对应于以熵为度量、以GINIA/。,指数为度量和以最大分类误差为度量的三种决策树。所述三种决策树均由测试节点和叶节点组成,所述测试节点对应于某一特定的故障表现,所述叶节点对应于某一特定的故障模式,在生成决策树的测试节点和叶节点时,包括步骤步骤A、系统故障诊断装置判断当前是否存在令G",(,=0的故障表现,若有,则根据其中令A/。,最大的故障表现生成决策树当前的测试节点;否则,进行步骤B。步骤B、系统故障诊断装置判断当前是否存在令A/。,=0的故障表现,若有,则根据其中令a^最小的故障表现生成决策树当前的测试节点,否则,进行步骤C。步骤C、系统故障诊断装置根据当前令ov=最小的故障表现生成决"",策树当前的测试节点。步骤D、系统故障诊断装置根据所述当前的测试节点判断是否能直接推断出相应的故障模式,并在推断出相应的故障模式后,将该故障模式标注为所述测试节点的叶节点;接着,系统故障诊断装置进一步判断是否存在下一个测试节点,并在存在所述下一个测试节点时,返回步骤A。系统故障诊断装置在生成三种决策树后,针对所述三种决策树分别计算其平均需测试故障表现数量。&*和平均测试代价c0w~;然后计算C0^,vg*c0<vg,其中w是一个为之间的常数,用来决定测试代价Co气对信息增益吒的相对重要性,由人工预先设定;最后,系统故障诊断装置选择三种决策树中令CoA^*Co《vg取值最小的决策树为用于确定故障定位树的决策树。表3<table>tableseeoriginaldocumentpage12</column></row><table>本实施例中,三种决策树之间的性能比较如表3所示;显然,故障定位模块10选择其中基于熵生成的决策树为用于确定故障定位树的决策树,该决策树的结构如图2所示。决策树只是一种逻辑结构,为了能够对系统进行故障定位,系统故障诊断装置应将所述决策树转换为相应的故障定位树,故障定位树是用脚本的形式描述各测试节点和各叶节点的,在故障定位树中,所述各测试节点中包括相应的测试方案脚本,所述各叶节点中包括相应的解决方案脚本;系统故障诊断装置通过运行所述脚本文件从而实现对系统的故障定位及诊断操作。参阅图3所示,所述故障定位树为二叉树模型,故障定位树中的各个测试节点都是对应于某一特定故障表现的测试动作,该测试动作对应于一个脚本文件,即测试方案脚本,所述测试方案脚本包括对相应的故障表现的测试方法,该测试方法可以分为全自动,部分自动(需人工输入某些参数)和人工(需要人工进行检测或人工运行某些脚本不能调用的程序)。系统故障诊断装置每运行一个测试方案脚本,都需要判断相应的故障表现是否发生,并根据返回的结果进行后续处理。另一方面,故障定位树中的各个叶节点都是对应于某一特定的故障模式的处理动作,该处理动作对应于一个脚本文件,即解决方案脚本,所述解决方案脚本包括对相应的故障模式的处理方法。当系统故障诊断装置对系统进行故障定位时,从所述故障定位树的树根出发,经过不同的测试节点,运行相应的测试方案脚本,最终得到对应的叶节点,从而获取相应的故障模式和对应的解决方案脚本,并通过运行所述解决方案脚本对所述故障模式进行处理。例如,如图3所示,当系统发生故障时,系统故障诊断装置根据故障定位树,首先检查故障表现7是否发生,当故障症状7未发生时,再检查故障表现4是否发生,当故障表现4发生时,继续检查故障表现3是否发生,并在故障表现3发生时,最终确定系统的故障原因是故障模式7。这样,便使生成的故障定位树的测试代价与该故障定位树的信息量增益之比最小,从而在减小故障定位树的测试代价和减少故障定位树的测试步骤数两方面达到了综合平衡。参阅图4所示,本发明实施例中,系统故障诊断装置对系统进行故障定位的详细流程如下步骤400:系统故障诊断装置对系统进行FEMA分析从而形成相应的故障描述,接着将所述故障描述与该系统故障历史数据库中相关的信息相结合,形成相应的故障模式库。步骤410:系统故障诊断装置根据所述故障模式库分别生成基于熵、基于GINI指数和基于最大分类误差的三种决策树。步骤420:系统故障诊断装置分别计算所述三种决策树对应的平均需测试故障表现数量与平均测试代价的乘积。步骤430:系统故障诊断装置选择所述乘积中的最小值所对应的决策树为用于确定故障定位树的决策树。步骤440:系统故障诊断装置将所述选择的决策树转换为相应的故障定位树。步骤450:系统故障诊断装置根据所述故障定位树对系统进行故障分析、定位,确定最终的故障模式并对该故障模式进行相应的处理。上述实施例中,系统故障诊断装置在生成故障定位树后,向用户显示生成的结果,用户可以4艮据自身的需要对所述故障定位树或是故障模式库中的其它数据信息进行相应的修改,从而进一步提高相关信息的准确性。另外,系统故障诊断装置在对系统进行故障定位并进行诊断操作后,应将相应的诊断结果记录到故障模式库中,同时将该诊断结果下发给测试对象并向用户显示,所述诊断结果包括故障表现、具体处理过程和最终确定的故障模式。在系统运行一段时间后,系统故障诊断装置根据系统在这段时间内得到的故障模式的信息,调整相应的故障模式的发生概率,调整公式为其中,A^为故障模式新的发生概率,A^为故障模式原有的发生概率(若是第一次出现的故障模式,则/^=0),是该故障模式在系统运行的这段时间内发生的次数,n是所有的故障模式在系统运行的这段时间内发生的次数,m是一个人为指定参数。系统故障诊断装置在调整了故障模式的发生概率后,可以根据调整后的故障模式的发生概率重新获得用于确定故障定位树的决策树和对应的故障定位树,从而使得系统自动纠正原有的一些数据估计偏差,使重新生成的故障定位树能更加满足实际情况的需要。明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。权利要求1.一种测试代价敏感的系统故障定位方法,其特征在于,包括步骤对系统进行故障模式影响分析并形成相应的故障模式库,该故障模式库包括故障表现、可能导致故障表现的故障模式、每种故障表现的测试代价和每种故障模式的发生概率;根据每种故障表现的测试代价和每种故障模式的发生概率获得用于确定故障定位树的决策树,该决策树使故障定位树的测试代价与故障定位树的信息量增益之比最小;将所述决策树转换为对应的故障定位树,并通过该故障定位树分析定位系统故障。2、如权利要求1所述的方法,其特征在于,所述获得决策树的步骤具体包括步骤分别以熵、GINI指数和最大分类误差为度量生成相应的三种决策树;分别计算出所述三种决策树对应的平均需测试故障表现数量与平均测试代价的乘积;将所述乘积中最小值对应的决策树作为确定故障定位树的决策树。3、如权利要求2所述的方法,其特征在于,生成所述三种决策树的步骤具体包括步骤分别以熵、GINI指数和最大分类误差为度量生成相应的三种信息量增益;根据所述三种信息量增益和所述每种故障表现的测试代价分别生成对应于熵、GINI指数和最大分类误差的三种决策树。4、如权利要求2所述的方法,其特征在于,所述三种决策树由测试节点和叶节点组成,所述测试节点对应于某一特定的故障表现,所述叶节点对应于某一特定的故障模式。5、如权利要求4所述的方法,其特征在于,生成所述决策树的测试节点的步骤包括若当前存在使所述测试代价取值为零的故障表现,则根据其中令所述信息量增益最大的故障表现生成决策树当前的测试节点;若当前存在令所述信息量增益取值为零的故障表现,则根据其中令所述测试代价最d、的故障表现生成决策树当前的测试节点;否则,根据当前令所述测试代价与所述信息量增益的比值最小的故障表现生成决策树当前的测试节点。6、如权利要求5所述的方法,其特征在于,生成所述决策树的叶节点的步骤为进一步根据所述当前的测试节点判断是否能直接推断出相应的故障模式,并在推断出相应的故障才莫式后,将该故障模式标注为所述测试节点的叶节点。7、如权利要求1-6任一项所述的方法,其特征在于,所述故障定位树以脚本形式描述各测试节点和各叶节点;所述各测试节点中包括测试方案脚本,所述各叶节点中包括解决方案脚本。8、如权利要求7所述的方法,其特征在于,还包括根据用户的指令修改所述故障定位树的步骤。9、如权利要求8所述的方法,其特征在于,还包括步骤在对系统进行故障定位分析并解决相应的故障模式后,将诊断结果存储到故障模式库中,所述诊断结果包括故障表现、具体&理过程和最终确定的故障模式。10、如权利要求8所述的方法,其特征在于,还包括步骤在对系统进行故障定位分析并处理相应的故障模式后,进一步根据某一故障模式在某段时间内的发生次数和该故障模式原有的发生概率,以及所有的故障模式在所述某段时间内的发生次数,获取所述某一故障模式最新的发生概率。11、如权利要求10所述的方法,其特征在于,还包括步骤根据故障模式最新的发生概率,重新获得用于确定故障定位树的决策树和对应的故障定位树。12、一种系统故障诊断装置,其特征在于,包括存储单元,用于存储故障模式库,所述故障模式库包括故障表现、可能导致故障表现的故障模式、每种故障表现的测试代价和每种故障模式的发生概率;通信模块,用于实现系统故障定位装置和测试对象之间的信息交互;处理模块,用于对系统进行故障模式影响分析,形成相应的故障模式库,并根据所述故障模式库中各故障表现的测试代价和各故障模式的发生概率生成用于确定故障定位树的决策树和对应的故障定位树;故障定位模块,用于根据所述故障定位树对系统进行故障分析和定位,以及对定位出的故障模式进行处理。13、如权利要求12所述的装置,其特征在于,所述系统故障诊断装置还包括用户接口模块,用于向用户显示诊断结果,或根据用户的指令对所述故障定位树及故障模式库中的数据进行相应的修改。全文摘要本发明公开了一种测试代价敏感的系统故障定位方法,该方法为对系统进行故障模式影响分析并形成相应的故障模式库,该故障模式库包括故障表现、可能导致故障表现的故障模式、每种故障表现的测试代价和每种故障模式的发生概率;接着,根据每种故障表现的测试代价和每种故障模式的发生概率获得用于确定故障定位树的决策树;最后,将所述决策树转换为对应的故障定位树,并通过该故障定位树分析定位系统故障。这样,便解决了现有方法无法兼顾使测试代价相对最少和使生成的故障定位树相对最小的问题。本发明同时公开了一种系统故障定位装置。文档编号G06F11/22GK101211296SQ200610161779公开日2008年7月2日申请日期2006年12月25日优先权日2006年12月25日发明者郑秋华,钱运涛申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1